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大 数据 时 代 已 经 到 来 , 大 数据 处 理 已 经 成 为 当今 信息 处 理 的 热点 研究 内 容 . 不 同 于 大 规模 
数据 ， 大 数据 具有 自身 鲜明 的 4V 特征 : Volume (规模 性 ) 、Variety (多 样 性 ) 、Velocity (高 
速 性 ) 和 Veracity (真实 性 ) 。 大 数据 不 仅 规模 大 ， 更 需要 采取 新 的 数据 思维 来 应 对 ， 其 必然 
导致 理论 和 技术 上 的 革新 。 因 此 , 大 数据 分 析 也 被 认为 是 继 实验 . 理论 和 计算 之 后 的 科学 研究 
第 四 范式 . 大 数据 的 出 现 必 将 颠覆 传统 的 数据 管理 方式 ,在 数据 来 源 . 数据 处 理 方式 和 数据 思 
维 方面 都 会 对 其 带 来 革命 性 的 变化 。 

2013 年 初 ， 美 国 计 算 机 协会 数据 库 专家 委员 会 联合 研究 界 、 产 业界 和 政府 部 门 的 相关 研 
究 人 员 ， 发布 了 大 数据 研究 白皮书 ， 提 出 了 大 数据 分 析 的 5 个 重要 阶段 : 数据 获取 和 记录 ， 
数据 抽取 、 清 洗 和 注 记 ， 数 据 集成 ， 聚 集 和 表示 ， 数 据 分 析 和 建 模 ， 数 据 解释 . 在 这 5 个 阶 
段 中 需要 考虑 数据 的 异 构 性 、 规模 、 时 效 性 . 复杂 性 和 隐私 问题 。 本 书 以 此 为 提纲 进行 内 容 组 
织 ， 首 先 介绍 了 5 个 阶段 中 相关 的 科学 与 技术 问题 ， 然 后 以 实际 案例 的 形式 详细 介绍 了 数据 
采集 数据 存储 与 检索 数据 处 理 、 数 据 访问 与 转换 4 个 大 数据 领域 的 重要 问题 ， 最 后 以 股 
票 市 场 预测 系统 、 海 量 视频 检索 系统 和 云 文件 系统 3 个 大 数据 实际 应 用 系统 为 例 详细 介绍 如 
何 进 行 问题 分 析 . 数据 建 模 以 及 系统 的 设计 与 实现 。 本 书 强调 理论 联系 实际 , 重点 在 于 介绍 如 
何 利用 现 有 技术 解决 实际 的 大 数据 问题 。 

目前 市 场 上 以 大 数据 为 主题 的 书籍 较 多 , 但 经 过 作者 调研 ,未 见 以 “利用 现 有 技术 解决 大 
数据 问题 ”为 主题 的 大 数据 实战 类 书籍 。 本 书 编写 团队 核心 成 员 自 2010 年 起 陆续 承担 了 一 些 
与 大 数据 采集 存储， 处理、 分析 、 挖掘 和 检索 方面 的 研究 与 应 用 开发 工作 ,具有 丰富 的 项 目 
实践 经 验 。 这 些 实际 项 目 经 验 形成 了 本 书 最 为 核心 的 第 6~12 章 的 内 容 。 通 过 项 目 实战 ,我 们 
积累 了 一 些 解决 大 数据 问题 的 宝贵 经 验 , 对 大 数据 的 核心 技术 有 了 较为 深刻 的 理解 , 认为 有 必 
要 将 自己 的 经 验 和 认识 整理 出 来 , 以 满足 广大 读者 利用 现 有 技术 解决 大 数据 实际 问题 的 迫切 需 
求 与 心情 ， 这 也 是 书 名 的 由 来 。 

本 书 适合 不 同 层次 的 读者 阅读 , 建议 读者 根据 自己 的 兴趣 和 目的 有 选择 性 地 阅读 : 希望 了 
解 大 数据 相关 的 基础 理论 与 技术 的 读者 , 可 以 重点 阅读 第 1~5 章 ， 对 于 大 数据 领域 的 初学 者 ， 
可 以 重点 阅读 第 1~9 章 ， 对 于 已 经 掌握 大 数据 基础 理论 ， 具 有 一 定 的 技术 基础 ， 想 解决 实际 
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大 数据 问题 的 读者 ， 可 以 重点 阅读 第 10~12 章 。 
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第 1 章 
大 数据 介绍 


IT 行业 总 不 乏 新 鲜 的 主题 ， 而 大 数据 正当 其 兴 ， 被 业界 热情 传诵 。“ 数 据 是 重要 资产 ”这 一 
概念 已 成 为 大 家 的 共识 ， 众 多 公司 争 相 分 析 、 挖 掘 大 数据 背后 的 重要 资源 。 为 了 帮助 读者 理解 大 
数据 的 来 龙 去 脉 ， 本 章 将 从 大 数据 的 历史 与 发 展 、 大 数据 的 定义 、 大 数据 的 研究 内 容 、 大 数据 问 
题 在 国内 外 政府 、 公 司 和 大 学 的 研究 现状 等 方面 进行 论述 ， 为 这 一 新 兴 概 念 勾勒 出 一 个 锥 形 。 














大 数据 相关 概念 


1.1.1 大 数据 的 历史 


大 数据 (Big Data) 目前 已 经 成 为 IT 领域 最 为 流行 的 词汇 ， 其 实 它 并 不 是 一 个 全 新 的 概念 。 
早 在 1980 年 ， 著 名 未 来 学 家 阿尔 文 。 托 夫 勒 便 在 《第 三 次 浪潮 》 一 书 中 ， 明 确 提出 “数据 就 是 
财富 ”这 一 观点 ， 并 将 大 数据 热情 地 赞颂 为 “第 三 次 浪潮 的 华 彩 乐章 ”。 

大 数据 中 的 “大 ”是 一 个 相对 概念 ， 数 据 库 、 数 据 仓库 、 数 据 集 市 等 信息 管理 领域 的 技术 ， 
很 大 程度 上 也 是 为 了 解决 大 规模 数据 的 问题 。 被 誉 为 数据 仓库 之 父 的 Bil Inmon 早 在 20 世纪 90 
年 代 就 经 常 将 “大 数据 ”这 一 概念 挂 在 嘴 边 了 。 

目前 得 到 广泛 认可 的 大 数据 概念 首先 由 知名 咨询 公司 Gartner 的 一 位 资深 分 析 师 Douglas 
Laney 提出 。 他 于 2001 年 在 Application Delivery Strategies 上 撰写 了 一 篇 名 为 "3D Data Management: 
Controlling Data Volume, Velocity and Variety” 的 文章 ， 指 出 大 数据 管理 面临 三 个 V 的 挑战 : 数据 
量 (Volume)、 数 据 多 样 性 (Variety)、 高 速 (Velocity)。“3V” 后 来 成 为 大 数据 公认 的 三 个 基本 特 
征 。 随 后 ，Gartner 发 布 了 大 数据 的 模型 ， 强 调 大 数据 需要 管理 采用 传统 数据 管理 技术 无 法 管理 的 
数据 ， 比 如 微 博 数据 、 海 量 交易 数据 、 多 媒体 数据 ， 等 等 。 

2008 年 9 月 ,自然 杂志 推出 (大 数据 》 专 刊 ,通过 “The next Google”“Data wrangling”“Welcome 
to the petacentre ”、“Distilling meaning from data” 等 多 篇 文章 ， 全 方位 介绍 了 大 数据 问题 的 产生 及 
对 各 个 研究 领域 的 影响 ， 首 次 将 “大 数据 ”这 一 概念 引入 科学 家 和 研究 人 员 的 视野 。 

2009 年 8 月 ，Adam Jacobs 在 4CM Oueue 上 发 表 文章 “The Pathologies of Big Data”， 文 章 讨 
论 了 大 数据 问题 的 起 源 、 发 展 与 现状 ， 指 出 “大 数据 ”这 一 概念 是 相对 的 ， 并 提出 应 该 考虑 为 什 
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么 会 出 现 “大 数据 ”这 一 现象 “大 数据 ”产生 的 很 大 一 部 分 原因 是 数据 录入 更 加 容易 等 观点 。 

2011 年 2 月 11 日 的 《科学 》 杂 志 专 门 推出 《数据 处 理 》(Dealing with Data) 专刊 ， 对 大 数 
据 现 象 在 科学 领域 的 现状 进行 了 全 面 分 析 。 该 专刊 首先 联合 《科学 》 杂 志 的 兄弟 期 刊 Science 
Signaling、Science Translational Medicine 和 Science Careers， 展开 了 对 各 科学 领域 研究 数据 规模 急 
剧 增 大 情况 下 各 种 问题 的 调研 ,问题 包括 “研究 数据 的 规模 “研究 数据 如 何 存 储 ” 等 等 。 随后 
该 专刊 发 表 多 篇 文章 ， 对 天 文学 、 气 象 学 、 生 态 学 、 神 经 科学 、 信 号 处 理 、 社 会 科学 、 生 物 学 等 
多 个 学 科 的 大 数据 问题 进行 了 解释 和 曾 述 ， 内 容 涵 六 数据 采集 、 分 析 、 处 理 、 挖 气 和 可 视 化 等 多 
个 方面 。 

2011 年 5 月， 麦肯锡 全 球 研究 院 发 表 Big data: The next frontier for innovation, competition, and 
productivity 白皮书 ， 指 出 企业 正在 面临 海量 的 交易 数据 、 顾 客 信息 、 供 货 商 信息 和 运营 数据 等 ， 
需要 对 这 些 数据 进行 管理 与 挖掘 。 在 物 联网 环境 下 ， 传 感 器 、 智 能 手机 、 工 业 设 备 等 都 在 产生 海 
量 数据 。 互 联网 中 的 多 媒体 数据 量 也 在 以 指数 级 上 升 ， 如 何 处 理 这 些 数据 ， 为 用 户 提供 有 用 的 信 
息 ， 成 为 需要 考虑 的 重要 问题 。 

2011 年 5 月 26 日 ， 经 济 学 人 发 表 “Building with big data” 指 出 在 数据 极度 膨胀 的 时 代 ， 要 
掌握 数据 的 分 析 与 处 理 能 力 ， 成 为 数据 的 主人 ， 而 不 要 成 为 数据 的 奴隶 。 

2012 年 2 月 11 日， 纽约 时 报 发 表 “The Age of Big Data”， 向 大 众 宣传 大 数据 时 代 的 到 来 。 

2012 年 3 月 22 日 ,奥巴马 宣布 以 2 亿美 元 投资 大 数据 领域 ， 在 次 日 的 电话 会 议 上 ， 美 国政 
府 将 数据 定义 为 “未 来 的 新 石油 ” 美国 政府 认识 到 了 一 个 国家 拥有 数据 的 规模 、 活 性 及 解释 运用 
的 能 力 将 成 为 综合 国力 的 重要 组 成 部 分 ， 未 来 对 数据 的 占有 和 控制 甚至 将 成 为 继 陆 权 、 海 权 、 空 
权 之 外 的 另 一 种 国家 核心 资产 。 

2012 年 7 月 10 日 ， 联 合 国 在 纽约 总 部 发 布 了 一 份 大 数据 政务 白皮书 ， 总 结 了 各 国政 府 如 何 
利用 大 数据 更 好 地 服务 和 保护 人 民 。 
































1.1.2 大 数据 的 定义 


1. 维基 百科 的 定义 

大 数据 是 指 其 大 小 或 复杂 性 无 法 通过 现 有 常用 的 软件 工具 ， 以 合理 的 成 本 并 在 可 接受 的 时 限 
内 对 其 进行 捕获 、 管 理 和 处 理 的 数据 集 。 这 些 困难 包括 数据 的 收入 、 存 储 、 搜 索 、 共 享 、 分 析 和 
可 视 化 。 


2. Garnter 的 定义 


Gamter 咨询 公司 关注 大 数据 的 三 个 量化 指标 : 数据 量 、 数 据 种 类 和 处 理 速度 。 一 般 企 业 所 面 
对 的 数据 管理 管理 的 是 数据 库 、 结 构 化 数据 ， 以 及 所 能 预先 安装 好 的 管理 软件 所 带 来 的 数据 。 大 
数据 管理 的 往往 是 我 们 无 法 管理 的 数据 ， 比 如 来 自 企 业 外 部 ， 微 博 、 社 交 网 站 和 多 媒体 等 各 种 载 
体 的 数据 。 

数据 多 样 性 将 是 大 数据 的 一 个 重点 。 它 意味 着 未 来 数据 的 产生 将 更 加 方便 、 快 捷 ， 无 所 不 在 。 
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数据 种 类 随 着 物 联网 等 技术 的 不 断 兴起 而 飞速 增加 , 特别 是 以 多 媒体 数据 为 代表 的 非 结构 化 数据 迅 
速 增加 , 为 大 数据 的 分 析 与 处 理 带 来 了 很 大 难度 。 处理 速 度 与 企业 CIO 关注 的 系统 性 能 不 是 等 同 的 
关系 。 这 里 的 速度 指 的 是 从 数据 产生 到 最 终 针对 数据 产生 决策 的 速度 ， 包 括 存 储 的 过 程 、 计 算 的 过 
程 、 系 统 模型 和 以 什么 方式 提交 出 最 后 的 结果 。 因 此 ， 速 度 不 仅 是 计算 能 力 和 存储 性 能 的 问题 ， 还 
要 考虑 数据 管理 、 数 据 保护 等 方面 的 响应 与 处 理 速度 。 在 大 数据 问题 中 ， 速 度 往往 是 性 命 依 关 的 。 
比如 对 于 灾难 的 预测 ， 当 灾难 发 生 时 ， 要 很 快 对 灾难 发 生 的 程度 、 影 响 的 区 域 范围 、 对 长 远 的 影响 
等 量化 出 来 。 这 是 大 数据 很 典型 的 应 用 ， 如 果 短 时 间 内 没有 计算 出 来 ， 那 么 数据 就 没 用 了 。 

另 一 方面 ，Garnter 认为 在 越 来 越 大 的 数据 集 上 工作 能 够 得 到 更 大 的 好 处 ， 大 数据 的 数据 增长 
挑战 (或 机 遇 ) 是 三 维 立体 的 : 不 断 增 长 的 数据 量 、 不 断 增 加 的 速率 〈 数 据 IO 的 速度 ) 和 不 断 
增加 的 种 类 数据 类 型 、 数 据 源 )。 而 传统 的 存储 技术 难以 应 对 大 数据 处 理 的 三 大 挑战 。 


e 挑战 一 : 不 断 增长 的 数据 量 。 在 大 数据 背景 下 ， 数 据 通 常 是 不 能 删除 的 ， 这 是 企业 的 宝贵 
的 财富 ， 因 此 数据 将 不 断 积累 增长 。 与 此 同时 ， 增 长 有 加 速 的 趋势 ， 经 常会 超出 人 们 预计 
或 规划 ， 从 而 对 信息 系统 带 来 了 极 大 的 挑战 。 信 息 中 心 需要 管理 TB 级 甚至 PB 级 数据 。 
要 为 这 些 数据 提供 存储 、 保 护 和 使 用 的 方案 ，IT 系统 需要 不 断 地 做 相应 升级 或 重 构 ， 需 
要 投入 大 量 人 力 物 力 。 

@ 挑战 二 : 多 格式 数据 .海量 数据 包括 了 越 来 越 多 不 同 格式 的 数据 ， 这 些 不 同 格式 的 数据 也 
需要 不 同 的 处 理 方法 。 从 简单 的 电子 邮件 、 数 据 日 志和 信用 卡 记录 ， 再 到 仪器 收集 到 的 科 
学 研究 数据 、 医 疗 数据 、 财 务 数据 以 及 丰富 的 媒体 数据 ( 包括 照片 、 音 乐 、 视 频 等 ) ， 都 
具有 这 个 特点 。 比 如 视频 文件 格式 就 非常 多 ， 有 各 软件 厂商 的 厂商 标准 的 格式 ， 工 业 标准 
组 织 的 工业 标准 格式 。 各 种 格式 在 当前 高 清 化 的 趋势 下 ， 数 据 粒度 更 小 ， 处 理 更 精细 ， 更 
复杂 的 格式 还 不 断 出 现 ， 造 成 单一 文件 的 体积 成 倍增 加 ， 从 而 要 求 处 理 速度 也 成 倍增 加 。 

@ 挑战 三 : 性 能 。 速 度 是 指数 据 从 客户 端 到 处 理 器 和 存储 的 移动 速度 ， 涉 及 终端 数据 处 理 能 
力 、 数 据 流 访问 和 交付 、 服 务 器 计算 处 理 能 力 以 及 后 端 存储 的 吞吐 能 力 。 速 度 意味 着 要 求 
数据 必须 以 多 快 的 频率 被 处 理 。 大 数据 处 理 需要 不 同 于 交易 类 应 用 的 速度 ,通常 其 对 带宽 


的 要 求 比 IO 操作 的 速度 更 重要 。 
3. IBM 对 大 数据 的 定义 
IBM 专门 开辟 了 大 数据 专栏 ， 从 大 数据 的 定义 、 大 数据 处 理 平台 等 多 个 方面 对 大 数据 问题 及 
解决 方案 进行 了 阐述 。 





Big data spans three dimensions: Volume, Velocity and Variety. 

Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes—even 
petabytes—of information. 

Velocity: Sometimes 2 minutes is too late. For time-sensitive processes such as catching fraud, big data 
must be used as it streams into your enterprise in order to maximize its value. 

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, 


Video, click streams, log files and more. New insights are found when analyzing these data types together. 
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IBM 认为 大 数据 横 跨 三 个 层面 ， 规模、 速度 和 种 类 。 


日 规模 : 企业 充斥 着 日 益 增长 的 所 有 数据 类 型 ， 容 易 积 累 TB 级 甚至 PB 级 的 信息 数据 。 

e 速度 : 对 于 有 些 应 用 来 说 ， 两 分 钟 的 处 理 时 间 都 为 时 已 晚 。 对 于 欺诈 追踪 等 时 间 敏 感 的 处 
理 流程 而 言 ， 大 数据 必须 快速 流入 企业 信息 系统 ， 并 得 到 快速 处 理 ， 以 最 大 化 其 价值 。 
种类: 大 数据 可 以 是 任何 类 型 的 数据 ， 包 括 文本 、 传 感 器 数据 、 音 频 、 视 频 、 单 击 流 、 日 
志文 件 等 结构 化 和 非 结构 化 数据 。 当 能 够 一 起 分 析 这 些 类 型 的 数据 时 ， 就 可 以 得 到 新 的 见 

解 。 


从 上 述 定 义 可 以 看 出 ，IBM 把 大 数据 概括 为 三 个 V， 即 大 规模 (Volume)、 高 速度 (Velocity) 
和 多 样 化 〈Variety)， 这 些 特点 也 反映 了 大 数据 所 潜藏 的 价值 (Value， 第 四 个 “V”)。 因 此 大 数 
据 的 特征 可 以 整体 概括 为 : “海量 + 多 样 化 + 快速 处 理 + 价 值 ”。 

4. 微软 对 大 数据 的 定义 


微软 在 SQL Server 产品 网 站 上 开辟 专栏 ， 给 出 了 大 数据 的 相关 概念 ， 强 调 需要 将 大 数据 转化 
为 企业 的 洞察 力 。 


Big data is the increasingly large and complex data that is now challenging traditional 
database systems 


Data volume is exploding: In the last few decades computing and storage capacity have 


grown exponentially, driving down cost to near zero. The rise of new technologies like Hadoop is 


significantly changing the economics of large scale data processing by enabling customers to 
analyze petabytes of data with industry standard hardware. According to IDC the digital universe 
will grow to 35 zettabytes (i.e. 35 trillion terabytes) globally by 2020. 

The variety of data is increasing. It’s all getting stored and nearly 85 percent of new data is 
unstructured data. The real questions now are: How do you put all this captured and stored data to 
good use? How do you analyze it to make better decisions? 


The velocity of data is speeding up the pace of business. Data capture has become nearly 


instantaneous thanks to new customer interaction points and technologies. Real-time analytics is 





more important than ever. 


微软 对 大 数据 的 定义 也 采用 了 “3V” 模 型 ， 并 进一步 指出 :1) 由 于 硬件 成 本 的 持续 降低 和 
新 型 数据 源 RFID、 互 联网 和 社交 媒体 等 ) 的 加 入 ,数据 量 会 持续 增加 ; (2) 文本、 博客、 视频 、 
图 片 、 购 买 历史 等 多 样 化 的 数据 大 大 增加 了 数据 的 种 类 ， 数 据 具 有 鲜明 的 多 样 性 特征 : (3) 随 着 
网 站 、ATM 取款 机 、POS 收 款 机 等 设备 成 为 大 数据 的 数据 源 ， 数 据 产 生 速度 飞速 增加 。 


5. SAS 对 大 数据 的 定义 
作为 专业 的 商业 分 析 软 件 与 服务 供应 商 , SAS 在 大 数据 传统 “3V” 模 型 定义 的 基础 上 加 入 了 


EE 


“可 变性 ”和 “复杂 性 ”两 个 重要 特征 。 





® Variability. In addition to the increasing velocities and varieties of data, data flows can be 
highly inconsistent with periodic peaks. Is something big trending in the social media? Perhaps 
there is a high-profile IPO looming. Maybe swimming with pigs in the Bahamas is suddenly the 
must-do vacation activity. Daily, seasonal and event-triggered peak data loads can be challenging 
to manage — especially with social media involved. 

e Complexity. When you deal with huge volumes of data, it comes from multiple sources. 
Itis quite an undertaking to link, match, cleanse and transform data across systems. However, it is 


necessary to connect and correlate relationships, hierarchies and multiple data linkages or your data 


can quickly spiral out of control. Data governance can help you determine how disparate data 


relates to common definitions and how to systematically integrate structured and unstructured data 
assets to produce high-quality information that is useful, appropriate and up-to-date 





可 变性 主要 反映 了 数据 流 可 能 具有 高 度 的 不 一 致 性 ， 并 存在 周期 性 的 峰值 。 例 如 社交 网 络 中 
的 某 个 热点 趋势 可 能 是 一 次 高 收益 的 IPO。 对 日 常 的 、 季 节 性 和 时 间 驱 动 的 峰值 数据 流 的 管理 具 
有 挑战 性 ， 特 别 是 当 社 交 媒体 介入 的 情况 下 。 

复杂 性 主要 体现 在 数据 来 源 的 多 样 性 上 。 连 接 、 匹 配 、 清 洗 和 转化 来 自 多 个 系统 的 数据 是 一 
件 非常 复杂 的 事情 。 除 此 以 外 ,还 需要 考虑 不 同 数据 源 之 间 的 连接 关系 、 关 联 关系 和 层次 关系 等 。 
需要 实施 数据 治理 策略 ， 帮 助 企业 系统 地 集成 结构 化 和 非 结构 化 数据 资产 , 产生 高 质量 、 恰当 的 、 
最 新 的 有 用 信息 。 


大 数据 研究 内 容 


2012 年 冬季 , 来 自 IBM、 微 软 、 谷 歌 _HP、MIT、 斯 坦 福 、 加 州 大 学 伯克利 大 学 、UIUC 等 
产业 界 和 学 术 界 的 数据 库 领域 专家 通过 在 线 的 方式 共同 发 布 了 一 个 关于 大 数据 的 白皮书 
“Challenges and Opportunities with Big Data”。 该 白皮书 首先 指出 大 数据 面临 着 5 个 主要 问题 ， 
分 别 是 异 构 性 〈Heterogeneity)、 规 模 (Scale)、 时 间 性 〈Timeliness)、 复 杂 性 〈Complexity) 和 隐 
私 性 (Privacy)。 在 这 一 背景 下 ， 大 数据 的 研究 工作 将 面临 5 个 方面 的 挑战 : 


e 数据 获取 问题 。 数 据 海 啸 需要 我 们 对 “哪些 数据 需要 保存 ， 哪 些 数据 需要 丢 齐 ， 如 何 可 靠 
地 存储 我 们 需要 的 数据 ( 同时 存储 该 数据 正确 的 元 数据 ) ”等 问题 进行 决策 ， 目 前 这 些 决 
策 还 只 能 采用 特定 方法 (ad hoc ) 给 出 。 

e 数据 结构 问题 tweet 和 blog 是 没有 结构 的 数据 图 像 和 视频 在 存储 和 显示 方面 具有 结构 ， 
但 无 法 包含 语义 信息 并 进行 检索 。 如 何 将 这 种 没有 语义 的 内 容 转 换 为 结构 化 的 格式 ， 并 进 
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行 后 续 处 理 ， 是 需要 应 对 的 另外 一 项 重要 挑战 。 
@ 数据 集成 问题 。 只 有 将 数据 之 间 进 行 关联 ， 才 能 充分 发 挥 数据 的 作用 ， 因 此 数据 集成 也 是 
一 项 挑战 。 
@ ”数据 分 析 、 组 织 、 抽 取 和 建 模 是 大 数据 本 质 的 功能 性 挑战 。 数据 分 析 是 许多 大 数据 应 用 的 
瓶颈 ， 目 前 底层 算法 缺乏 伸缩 性 、 对 待 分 析 数 据 的 复杂 性 估计 不 够 。 
e 如何 呈现 数据 分 析 的 结果 ， 并 与 非 技 术 领 域 的 专家 进行 交互 。 
白皮书 对 大 数据 的 “3V” 模 型 进行 了 解释 ,指出 现 有 的 工作 对 数据 的 隐私 性 和 易 用 性 方面 考 
虑 不 周 。 另 外 ， 大 数据 的 分 析 包 含 多 个 步 又， 目前 的 研究 大 多 关注 数据 建 模 和 分 析 ， 而 对 其 他 阶 
段 关注 不 够 。 即 使 在 数据 分 析 阶 段 ， 目 前 的 研究 仍然 没有 很 好 地 理解 数据 建 模 与 分 析 在 多 租户 集 
群 环境 中 的 复杂 性 ， 在 该 环境 中 ， 多 个 用 户 程序 会 并 发 执行 。 
为 了 应 对 上 述 挑 战 ， 白 皮 书 建议 采用 现 有 成 熟 技术 解决 大 数据 带 来 的 挑战 ， 并 给 出 了 大 数据 
分 析 的 分 析 步 又 ， 如 图 1.1 所 示 。 


获取 /记录 滑 / 了 分 析 / 建 模 
注 记 
人 机 
异 构 性 | 规模 | 时 间 性 | 隐私 性 | 协作 
大 数据 处 理 系统 











图 1.1 大 数据 处 理 参考 框架 


从 图 1.1 中 可 以 看 出 ， 大 数据 处 理 过 程 可 以 大 致 分 为 数据 获取 /记录 、 信 息 抽取 /清洗 / 注 记 、 
数据 集成 聚集 /表现 、 数 据 分 析 / 建 模 和 数据 解释 5 个 主要 阶段 ， 人 贯穿 所 有 节点 ， 系 统 需要 考虑 数 
据 的 异 构 性 、 规 模 、 时 间 性 、 隐 私 性 和 人 机 协作 等 方面 的 因素 。 在 每 一 个 阶段 ， 都 面临 着 各 自 的 
研究 问题 与 挑战 。 


1. 数据 获取 和 记录 ( Data Acquisition and Recording ) 
面临 的 挑战 包括 : 
ee 如何 对 原始 数据 进行 智能 化 处 理 ， 过 滤 不 需要 的 数据 ; 


实战 大 数据 
@ 在 线 处 理 技术 ， 直 接 对 数据 进行 处 理 ， 而 不 需要 存储 后 再 进行 过 滤 ; 
@@ 自动 生成 正确 的 元 数据 ， 描 述 记录 了 什么 数据 以 及 数据 的 记录 和 度量 方式 。 


可 能 的 研究 方向 : 


。 研究 数据 压缩 reduction ) 中 的 科学 问题 ， 能 够 智能 地 处 理 原始 数据 ， 在 不 丢失 信息 的 情 
况 下 ， 将 海量 数据 压缩 到 人 可 以 理解 的 程度 ; 

。 研究 “在 线 ” 数 据 分 析 技术 ， 能 够 处 理 实时 流 数据 ; 

e@ 研究 元 数据 自动 获取 技术 和 相关 系统 ; 研究 数据 来 源 ( data provenance ) 技术 ， 追 踪 数据 
的 产生 和 处 理 过 程 。 


2. 信息 抽取 和 清洗 ( Information Extraction and Cleaning ) 


一 般 来 说 ， 收 集 到 的 信息 通常 不 能 直接 用 来 进行 数据 分 析 ， 而 需要 一 个 信息 抽取 过 程 ， 将 需 
要 的 信息 从 底层 数据 源 中 抽取 出 来 , 形成 适 于 分 析 的 结构 , 完成 这 样 的 工作 需要 持续 的 技术 挑战 。 
抽取 的 对 象 可 能 包含 图 像 、 视 频 等 具有 复杂 结构 的 数据 ， 而 且 该 过 程 通常 是 与 应 用 高 度 相关 的 。 
除 此 以 外 ， 由 于 监控 摄像 头 、 装 载 有 GPS 的 智能 手机 、 相 机 和 其 他 便携 设备 无 处 不 在 ， 丰 富 的 、 
高 保 真 度 的 位 置 和 轨迹 数据 也 应 该 被 收集 与 处 理 。 

般 认 为 ， 大 数据 通常 会 反映 事实 情况 ， 实 际 上 大 数据 中 广泛 存在 着 虚假 数据 。 关 于 数据 清 
洗 的 现 有 工作 通常 假设 数据 是 有 效 的 、 组 织 良好 的 ， 或 对 其 错误 模型 具有 良好 的 先 验 知识 ， 这 些 
假设 在 大 数据 领域 将 不 再 正确 。 


3. 数据 集成 、 聚 集 和 表现 ( Data Integration, Aggregation, and Representation ) 


由 于 大 量 异 构 数据 的 存在 ， 大 数据 处 理 不 能 只 对 数据 进行 记录 ， 然 后 就 将 其 放 入 存储 中 。 如 
果 仅 仅 是 将 一 堆 数 据 放 入 存储 中 ， 那 么 其 他 人 就 可 能 无 法 查找 改 数据 ， 更 不 用 说 使 用 数据 了 。 即 
使 各 个 数据 源 都 存在 元 数据 ， 将 异 构 数据 整合 在 一 起 仍然 是 一 项 巨大 的 挑战 。 

对 大 规模 数据 进行 有 效 分 析 需 要 以 自动 化 的 方式 对 数据 进行 定位 、 识 别 、 理 解 和 引用 。 为 了 
实现 该 目标 ， 需 要 研究 数据 结构 和 语义 的 统一 描述 方式 与 智能 理解 技术 ， 实 现 机 器 自动 处 理 ， 从 
这 一 角度 看 ， 对 数据 结构 与 数据 库 的 设计 也 显得 尤为 重要 。 


4. 查询 处 理 、 数 据 建 模 和 分 析 ( Query Processing, Data Modeling, and Analysis ) 


查询 和 挖掘 大 数据 的 方法 ， 从 根本 上 不 同 于 传统 的 、 基 于 小 样本 的 统计 分 析 方法 。 大 数据 中 
的 噪声 数据 很 多 ， 具 有 动态 性 、 异 构 性 、 相 互 关 联 性 、 不 可 信和 性 等 多 种 特征 。 尽 管 如 此 ， 即 使 是 
充满 噪声 的 大 数据 也 可 能 比 小 样本 数据 更 有 价值 ， 因 为 通过 频繁 模式 和 相关 性 分 析 得 到 的 一 般 统 
计数 据 通常 强 于 具有 波动 性 的 个 体 数据 ， 往 往 透露 更 可 靠 的 隐藏 模式 和 知识 。 此 外 ， 互 联 的 大 数 
据 可 形成 大 型 异 构 的 信息 网 络 ， 可 以 披露 固有 的 社区 ， 发 现 隐藏 的 关系 和 模式 。 此 外 ， 信 息 网 络 
可 以 通过 信息 元 余 以 弥补 缺失 的 数据 、 交 叉 验 证 冲突 的 情况 、 验 证 可 信赖 的 关系 。 

数据 挖掘 需要 完整 的 、 经 过 清洗 的 、 可 信 的 、 可 被 高 效 访问 的 数据 ， 以 及 声明 性 的 查询 〈 例 
如 SQL) 和 挖掘 接口 ， 还 需要 可 扩展 的 挖掘 算法 及 大 数据 计算 环境 。 与 此 同时 ， 数 据 挖掘 本 身 也 


可 以 提高 数据 的 质量 和 可 信 度 ， 了 解数 据 的 语义 ， 并 提供 智能 查询 功能 。 

大 数据 也 使 下 一 代 的 交互 式 数据 分 析 实 现实 时 解答 。 未 来 ， 对 大 数据 的 查询 将 自动 生成 网 站 
上 创作 的 内 容 、 形 成 专家 建议 ， 等 等 。 在 TB 级 别 上 的 可 伸缩 复杂 交互 查询 技术 是 目前 数据 处 理 
的 一 个 重要 的 开放 性 研究 问题 。 

当前 大 数据 分 析 的 一 个 问题 是 缺乏 数据 库 系 统 之 间 的 协作 ， 这 些 数据 库存 储 着 数据 并 提供 
SQL 查询 ， 而 且 具 有 对 多 种 非 SQL 处 理 过 程 〈 例 如 数据 挖掘 、 统 计 等 ) 支持 的 工具 包 。 今 天 的 
数据 分 析 师 一 直 受 到 “从 数据 库 导 出 数据 ， 进 行 数据 挖掘 与 统计 〈 非 SQL 处 理 过 程 )， 然 后 再 写 
回 数据 库 这 一 烦琐 过 程 的 困扰 。 现 有 的 数据 处 理 方式 是 前 述 的 交互 式 复杂 处 理 过 程 的 一 个 障碍 ， 
需要 研究 并 实现 将 声明 性 查询 语言 与 数据 挖掘 、 数 据 统计 包 有 机 整合 在 一 起 的 数据 分 析 系 统 。 


5. 解释 ( Interpretation ) 


仅仅 有 能 力 分 析 大 数据 本 身 ， 而 无 法 让 用 户 理解 分 析 结 果 ， 这 样 的 效果 价值 不 大 。 如 果 用 户 
无 法 理解 分 析 ， 最 终 ， 一 个 决策 者 需要 对 数据 分 析 结 果 进 行 解 释 。 对 数据 的 解释 不 能 凭空 出 现 ， 
通常 包括 检查 所 有 提出 的 假设 并 对 分 析 过 程 进行 追踪 。 此 外 ， 分 析 过 程 中 可 能 引入 许多 可 能 的 误 
差 来 源 : 计算 机 系统 可 能 有 缺陷 、 模 型 总 有 其 适用 范围 和 假设 、 分 析 结果 可 能 基于 错误 的 数据 ， 
等 等 。 在 这 种 情况 下 ， 大 数据 分 析 系 统 应 该 支持 用 户 了 解 、 验 证 、 分 析 计算 机 所 产生 的 结果 。 大 
数据 由 于 其 复杂 性 ， 这 一 过 程 特别 具有 挑战 性 ， 是 一 项 重要 的 研究 内 容 。 

在 大 数据 分 析 的 情景 下 ， 仅 仅 向 用 户 提供 结果 是 不 够 的 。 相 反 ， 系 统 应 该 支持 用 户 不 断 提供 
附加 资料 , 解释 这 种 结果 是 如 何 产生 的 。 这 种 附加 资料 (结果 ) 称 之 为 数据 的 出 处 (data provenance )。 
通过 研究 如 何 最 好 地 捕获 、 存 储 和 查询 数据 出 处 ， 同 时 配合 相关 技术 捕获 足够 的 元 数据 ， 就 可 以 
创建 一 个 基础 设施 ， 为 用 户 提供 解释 分 析 结 果 ， 重 复 分 析 不 同 假设 、 参 数 和 数据 集 的 能 力 。 

具有 丰富 可 视 化 能 力 的 系统 是 为 用 户 展示 查询 结果 ， 进 而 帮助 用 户 理解 特定 领域 问题 的 重要 
手段 。 早 期 的 商业 智能 系统 主要 基于 表格 形式 展示 数据 ， 大 数据 时 代 下 的 数据 分 析 师 需要 采用 强 
大 的 可 视 化 技术 对 结果 进行 包装 和 展示 ， 辅 助 用户 理 解 系 统 ， 并 支持 用 户 进行 协作 。 

此 外 , 通过 简单 的 单 击 操作 ,用 户 应 该 能 够 向 下 钻 取 到 每 一 块 数据 ,看 到 和 了 解数 据 的 出 处 ， 
这 是 理解 数据 的 一 个 关键 功能 。 也 就 是 说 ， 用 户 不 仅 需要 看 到 结果 ， 而 且 需 要 了 解 为 什么 会 产生 
这 样 的 结果 。 然 而 ， 数 据 的 原始 出 处 〈 特 别 是 考虑 到 整个 分 析 过 程 具有 管线 结构 ) 对 于 用 户 来 说 
技术 性 太 强 ， 无 法 抓 住 数据 背后 的 思想 。 基 于 上 述 问题 ， 需 要 研究 新 的 交互 方式 ， 支 持 用 户 采用 
“ 玩 ” 的 方式 对 数据 分 析 过 程 进行 小 的 调整 〈 例 如 对 某 些 参数 进行 调整 ， 等 等 )， 并 立即 对 增 量化 
的 结果 进行 查看 。 通 过 这 种 方法 ， 用 户 能 够 对 分 析 结果 有 一 个 直观 的 理解 ， 从 而 更 好 地 理解 大 数 
据 背 后 的 价值 。 








大 数据 研究 现状 


1.3.1 学 术 界 现状 


1. 国外 学 术 界 大 数据 研究 现状 

(1) MIT 

2012 年 5 月 31 日 ，MIT 计算 机 科学 和 人 工 智能 实验 室 (CSAILL ) 与 英特尔 联合 成 立 了 
“bigdata@CSAIL” 大 数据 研究 项 目 。 该 项 目 主要 关注 大 数据 在 计算 平台 、 可 伸缩 的 算法 、 机 器 
学 习 和 理解 隐私 和 安全 4 个 方面 的 科学 问题 与 解决 方案 。 该 项 目 汇聚 了 CSAIL 中 以 Sam Madden 
为 代表 的 29 位 研究 者 ， 分 别 从 系统 风险 分 析 、 智 能 城市 、 数 据 存储 、 机 器 学 习 算 法 、 信 用 记录 
分 析 、 交 互 式 数据 可 视 化 、 计 算 机 系统 结构 仿真 、 下 一 代 搜 索引 擎 等 多 个 子 项 目 入 手 ， 从 多 个 方 
面 对 大 数据 问题 进行 了 深入 的 研究 。 

(2) 加 州 大 学 伯克利 分 校 

美国 政府 于 2012 年 3 月 为 加 州 大 学 伯克利 分 校注 资 1000 万 美元 , 开展 Big Data Research and 
Development Initiative〈 大 数据 研究 与 开发 ) 项 目的 研究 。 该 项 目 旨 在 采用 机 器 学 习 技 术 和 云 计 算 
技术 解决 大 数据 问题 ， 挖 掘 大 数据 中 的 重要 信息 。 

加 州 大 学 伯克利 分 校 Lawrence 国家 实验 室 的 研究 人 员 领 导 着 “Scalable Data Management, 
Analysis, and Visualization” 研 究 中 心 ， 该 中 心 联合 了 7 所 大 学 和 5 所 其 他 国家 实验 室 ， 主 要 从 事 
大 数据 管理 、 分 析 和 可 视 化 方面 的 研究 工作 。 

2012 年 11 月 ， 加 州 大 学 伯克利 分 校 开 设 了 一 门 关 于 大 数据 的 公开 课 Analyzing Big Data With 
Twitter。 该 课程 由 大 学 教授 和 Twitter 技术 主管 穿插 讲解 ， 内 容 以 Twitter 上 面临 的 实际 大 数据 挑 
战 为 蓝本 ， 着 重 从 软件 工程 的 角度 介绍 大 数据 的 分 析 技术 ， 探 讨 解决 大 数据 问题 的 方法 。 

2013 年 8 月 ,加 州 大 学 伯克利 分 校 西 蒙 计算 理论 研究 中 心 组 织 了 一 系列 的 “大 数据 研讨 会 (Big 
Data Boot Camp) ”活动 ， 探 索 大 数据 分 析 与 处 理 过 程 中 的 理论 计算 问题 。 


(3) 斯 坦 福 大 学 

斯 坦 福 大 学 医学 系 专门 成 立 了 生物 医学 专业 大 数据 组 ， 定 期 组 织 生 物 学 、 医 学 、 计 算 机 等 方 
面 的 专家 就 大 数据 问题 进行 研讨 ， 旨 在 跨 学 科 地 研究 和 探讨 大 数据 问题 。 

在 教育 培训 方面 ， 斯 坦 福 大 学 提供 了 大 规模 数据 挖掘 (Mining Massive Data Sets) 认证 课程 ， 
学 校内 的 学 生 可 以 选修 相关 课程 ， 获 得 认证 。 

(4) 华盛顿 大 学 

华盛顿 大 学 计算 机 科学 与 工程 系 利用 自身 在 数据 管理 、 机 器 学 习 和 开放 信息 抽取 方面 的 传统 
优势 ， 开 展 了 研究 和 学 位 教育 方面 的 工作 。 

在 研究 方面 ， 华 盛 顿 大 学 计算 机 科学 与 工程 系 展开 了 大 数据 管理 、 数 据 可 视 化 、 大 数据 系统 、 
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Web 上 的 大 数据 、 大 数据 和 发 现 等 多 项 科研 项 目 。 

在 大 数据 管理 领域 , 开展 了 包括 AstroDB、Myria、Nuage、CQMS、Data Eco$y$tem 和 SQLShare6 
个 有 代表 性 的 研究 项 目 ， 其 中 AstroDB 是 计算 机 科学 与 工程 系 2008 年 以 来 一 直 与 华盛顿 大 学 天 
文学 系 共 同 合作 的 项 目 ， 旨 在 构建 能 够 存储 、 管理、 分 析 和 处 理 天 文学 领域 大 数据 的 系统 。Myria 
项 目 主要 关注 构建 一 个 快速 、 灵 活 的 大 数据 管理 系统 ， 将 系统 以 云 服 务 的 形式 对 外 暴露 。Nuage 
项 目 关注 大 数据 与 云 计 算 相关 的 技术 问题 ,特别 关注 科学 应 用 问题 。CQMS 关注 辅助 大 数据 系统 
使 用 的 相关 工具 。Eco$y$tem 项 目 关 注 大 数据 市 场 以 及 数据 管理 和 定价 等 方面 的 问题 。SQLShare 
是 一 个 基于 云 计算 技术 的 数据 库 即 服务 平台 ， 关 注 关 系数 据 库 自动 化 使 用 方面 的 相关 问题 ， 包 括 
安装 、 配 置 、 数 据 库 模式 设计 、 性 能 调 优 和 应 用 构建 等 问题 。 

在 大 数据 可 视 化 方面 ， 主 要 通过 设计 交互 式 可 视 化 分 析 工 具 ， 增 强 数 据 的 分 析 和 交流 能 力 ， 
该 项 目 涉及 可 视 化 、 交 互 技术 和 评估 技术 的 研究 与 系统 实现 等 方面 的 问题 。 

在 大 数据 架构 和 编程 方面 , 主要 研究 在 计算 机 系统 结构 、 编程 和 系统 层面 上 对 大 数据 的 支持 ， 
主要 包括 基于 PCM (Phase-Change Memory) 的 存储 系统 研究 、 大 规模 非 规 则 并 行 计算 (如 图 分 
析 等 )、 硬 件 多 线程 系统 ， 等 等 。 

在 大 数据 系统 方面 ， 主 要 研究 超大 规模 内 存 机 器 、 大 规模 并 行 系统 中 的 可 预测 尾 延 迟 

(predictable tail-latency) 技术 等 。 

在 Web 大 数据 方面 ， 主 要 研究 Web 范围 内 的 信息 抽取 系统 ， 该 系统 能 够 读 取 Web 上 的 任意 
文本 数据 ， 抽 取 有 意义 的 信息 ， 并 将 其 存储 到 一 个 统一 的 知识 库 中 ， 便 于 后 续 的 查询 工作 。 

在 人 才 培 养 和 教育 方面 ， 计 算 机 科学 与 工程 系 于 2013 年 9 月 开始 招收 数据 科学 的 博士 学 位 〈 特 
别 关注 大 数据 问题 )。 华 盛 顿 大 学 将 利用 整个 大 学 的 资源 ， 打 造 一 个 跨 学 科 的 大 数据 方面 的 博士 学 位 。 
除 此 以 外 ， 华 盛 顿 大 学 还 开设 一 个 关于 数据 科学 方面 的 认证 项 目 ， 提 供 相关 的 教育 与 培训 服务 。 


2. 国内 学 术 界 大 数据 研究 现状 


(1) 中 国 科学 院 
英特尔 公司 与 中 国 科学 院 自动 化 研究 所 联合 成 立 “中 国 英特尔 物 联 技术 研究 院 ”， 计 划 未 来 
5 年 投资 2 亿 元 人 民 币 ， 着 力 攻 克 大 数据 处 理 技术 、 传 输 技术 和 智能 感知 等 物 联网 核心 技术 。 该 
研究 院 还 将 与 国际 国内 一 流 科研 院 所 、 院 校 和 企业 合作 ， 建 立 一 个 开放 式 的 研究 中 心 。 
中 国 科学 院 软 件 研究 所 2012 年 5 月 31 日 承办 了 “ 走 进 大 数据 时 代 研 讨 会 ”。 国 内 众多 知名 
大 学 教授 ， 及 行业 代表 围绕 大 数据 的 相关 议题 展开 共同 探讨 。 分 析 了 当前 大 数据 的 行业 现状 ， 大 
数据 的 最 新 动态 及 发 展 趋势 。“ 大 数据 ”概念 正在 引领 中 国 互联 网 行业 新 一 轮 的 技术 浪潮 。 


(2) 清华 大 学 
清华 大 学 计算 机 科学 与 技术 系 、 地 球 系统 科学 研究 中 心 等 机 构 一 直 从 事 大 数据 方向 的 研究 ， 
取得 了 一 些 成 果 ， 包 括 清华 云 存储 系统 、 大 数据 存储 系统 、 大 数据 处 理 平 台 、 社 交 网 络 云 计 算 和 
2013 年 7 月 ， 人 人 游戏 将 向 清华 大 学 捐赠 1000 万 元 ， 与 后 者 共同 建设 一 个 “行为 与 大 数据 
实验 室 ” 该 实验 室 将 主要 用 于 研究 网 络 虚拟 社区 心理 和 体验 经 济 心理 , 为 人 人 游戏 的 产品 开发 提 
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供 理论 和 技术 支撑 。 


(3) 北京 航空 航天 大 学 

在 科学 研究 方面 ， 北 京 航空 航天 大 学 计算 学 院 、 爱 丁 堡 大 学 信息 学 院 、 香 港 科技 大 学 计算 机 
系 、 宾夕法尼亚 大 学 和 百度 公司 于 2012 年 9 月 联合 创建 “大 数据 科学 与 工程 ”国际 研究 中 心 ， 虽 
在 以 当前 互联 网 和 大 数据 时 代 新 型 信息 技术 为 牵引 ， 创 造 新 的 学 术 领 域 和 应 用 增长 点 。 

在 人 才 培 养 方面 ， 北 京 航空 航天 大 学 计算 机 学 院 、 北 京 航空 航天 大 学 软件 学 院 、 工 信 部 CSIP 
移动 云 计 算 教育 培训 中 心 于 2013 年 联合 创办 了 国内 第 一 个 “大 数据 科学 与 应 用 ”软件 工程 硕士 专 
业 。 该 专业 以 实际 需求 为 牵引 ， 结 合 企业 内 训 和 项 目 实践 ， 期 望 学 生 掌握 大 数据 在 数据 管理 、 系 
统 开 发 、 数 据 分 析 与 数据 挖掘 等 方面 的 核心 技能 。 


(4) 中 国人 民 大 学 

中 国人 民 大 学 “ 云 计算 与 大 数据 实验 室 ”是 由 周 晓 方 教授 、 陆 嘉 恒 副 教授 领导 的 ， 主 要 关注 
云 计算 、 非 结构 化 数据 、 海 量 数据 、 数 据 库 等 方向 研究 的 团队 ， 隶 属于 数据 工程 与 知识 工程 教育 
部 重点 实验 室 (DEKE) 和 信息 学 院 计算 机 系 。 

该 实验 室 主要 包括 海量 Web 数据 管理 、 空 间 数 据 库 管理 技术 、 分 布 式 与 云 计 算 以 及 XML 数 
据 查 询 和 管理 4 个 主要 研究 方向 。 研 究 内 容 包 括 海量 数据 管理 的 理论 知识 (一 致 性 理论 、 分 区 策 
略 、 容 错 策略 、 存 储 和 查询 模型 等 )、 流 行 的 数据 管理 方法 和 已 推出 的 众多 数据 管理 系统 、 空 间 数 
据 的 表示 和 建 模 、 存 储 与 索引 、 查 询 处 理 、 空 间 数据 挖掘 、XML 查询 优化 、XML 关键 字 查询 、 
XML 查询 改写 以 及 XML Twig 查询 等 。 








1.3.2 ”产业 界 现 状 


1. 国外 公司 

(1) 谷歌 

MapReduce 是 2004 年 由 谷歌 提出 的 面向 大 数据 集 处 理 的 编程 模型 ， 起 初 主要 用 作 互 联网 数 
据 的 处 理 ， 如 文档 抓 取 、 倒 排 索引 的 建立 等 。 但 由 于 其 简单 而 强大 的 数据 处 理 接口 和 对 大 规模 并 
行 执行 、 容 错 及 负载 均衡 等 实现 细节 的 隐藏 ， 该 技术 一 经 推出 便 迅 速 在 机 器 学 习 、 数 据 挖 掘 、 数 
据 分 析 等 领域 得 到 广泛 应 用 。 

继 MapReduce 之 后 , 谷歌 又 推出 了 Big Query 服务 , 能 够 通过 使 用 类 SQL 查询 语言 在 几 秒 钟 
内 筛选 数 十 亿 行 的 数据 。 具 体 来 说 ，BigQuery 允许 用 户 上 传 超大 规模 数据 ， 并 直接 对 数据 进行 交 
互 式 分 析 ; 对 于 开发 者 来 说 ，BigQuery 还 提供 了 基于 Web 服务 的 编程 接口 ， 使 得 开发 者 可 以 利 
用 谷歌 的 后 台 架 构 运行 SQL 语句 ， 对 超大 规模 的 虚拟 数据 库 进 行 操作 。BigQuery 引擎 可 以 快速 
扫描 70TB 未 经 压缩 处 理 的 数据 ， 并 且 可 马上 得 到 分 析 结果 。 从 技术 的 角度 看 ，BigQuery 是 一 个 
在 云端 的 SQL 服务 ， 可 以 提供 海量 数据 的 实时 分 析 ， 客 户 端 不 需要 做 任何 事情 。 
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(2) IBM 

针对 大 数据 问题 , IBM 推出 了 InfoSphere 大 数据 分 析 平 台 。 该 平台 包括 BigInsights 和 Streams 
两 个 产品 系列 ， 二 者 互补 。BigInsights 对 大 规模 的 静态 数据 进行 分 析 ， 它 提供 多 节点 的 分 布 式 计 
算 , 可 以 随时 增加 节点 ,提升 数据 处 理 能 力 .Streams 则 采用 内 存 计算 方式 分 析 实 时 数据 。InfoSphere 
大 数据 分 析 平 台 还 集成 了 数据 仓库 、 数 据 库 、 数 据 集成 、 业 务 流程 管理 等 组 件 。 

BigInsights 基于 Hadoop， 增 加 了 文本 分 析 、 统 计 决策 工具 ， 同 时 在 可 靠 性 、 安 全 性 、 易 用 性 、 
管理 性 等 方面 提供 了 相应 工具 ， 可 与 DB2、Netezza 等 系统 集成 ， 适 合 企业 级 应 用 需求 。Streams 
是 一 款 满足 即时 处 理 、 过 滤 和 分 析 流 数据 需要 的 应 用 程序 。 需 要 注意 的 是 ，BigInsights 和 Streams 
是 数据 仓库 的 补充 ， 而 不 能 直接 代 蔡 数 据 仓 库 。 一 方面 因为 Hadoop 等 技术 的 成 熟 度 较 低 ， 还 需 
要 进一步 稳定 ， 另 一 方面 的 原因 是 某 些 特定 的 企业 应 用 需求 还 需要 数据 仓库 的 支持 。 

具体 来 说 ，BigInsights 静态 大 数据 分 析 平 台 能 够 在 常用 、 低 成 本 的 硬件 上 运行 ， 并 行 支持 线 
性 可 伸缩 性 ， 可 用 于 支持 半 结 构 化 或 非 结构 化 的 信息 ， 同 时 不 需要 烦琐 的 预 处 理 ， 人 允许 跨 信息 类 
型 动态 添加 结构 和 关联 。 另 外 ， 它 还 可 以 支持 主动 风险 管理 与 预测 、 实 体 识别 与 情绪 趋势 分 析 等 
新 型 工作 负载 , 同时 配备 了 高 级 文本 分 析 功能 。Streams 大 数据 实时 分 析 平 台 则 是 一 个 擅长 处 理 流 
动 数据 的 高 性 能 计算 平台 。 它 允许 用 户 开发 的 应 用 在 信息 从 成 千 上 万 个 实时 源 到 达 时 便 快 速 对 其 
进行 采集 、 分 析 和 关联 操作 ， 及 时 捕捉 并 处 理 关 键 业 务 数据 。 目 前 ，Streams 能 够 满足 用 户 当前 对 
反应 时 间 和 可 扩展 性 的 要 求 ， 并 支持 高 容量 、 结 构 化 和 非 结构 化 流 数 据 源 。 


(3) 微软 
微软 在 数据 检索 、 数 据 处 理 和 数据 存储 等 方面 对 大 数据 问题 进行 了 研究 ， 开 发 出 了 一 系列 产 





品 。 
在 数据 检索 方面 ， 为 了 呈 北 高 质量 的 搜索 结果 ， 微 软 在 Bing 中 分 析 了 超过 100PB 的 数据 。 
在 数据 存储 方面 ， 微 软 提出 并 行 数据 仓库 (PDW) 概念 ， 能 够 处 理 超过 600TB 的 大 数据 量 ， 并 
提供 企业 级 的 计算 能 力 。 在 数据 处 理 与 计算 方面 ， 微 软 为 LINQ to HPC (高 性 能 计算 ) 提供 了 分 
布 式 的 运行 时 和 编程 模型 ， 并 支持 将 Windows Server 和 Windows Azure 等 平台 构建 在 分 布 式 的 
Apache Hadoop 之 上 ， 以 提高 系统 的 处 理 能 力 和 扩展 性 。 
(4) SAS 
自 1976 年 以 来 ，SAS 就 一 直 致力 于 向 企业 提供 数据 分 析 服 务 ， 目 前 支持 着 世界 上 最 大 的 数 
据 集 。SAS 的 大 数据 产品 主要 包括 高 性 能 分 析 服 务 器 (SAS High-Performance Analytics Server)、 
SAS 可 视 化 分 析 (SAS Visual Analytics) 和 SAS DataFlux 数据 流 处 理 引擎 (SAS DataFlux Event 
Stream Processing Engine )。 为 科学 计算 、 时 间 序 列 趋势 预测 、 作 业 成 本 管理 、 金 融 大 数据 整体 解 
决 方案 、 客 户 智能 、 财 务 智能 、 政 府 行业 解决 方案 等 提供 了 有 效 的 支持 。 
(5) EMC 
EMC 针对 大 数据 推出 了 Greenplum 数据 引擎 软件 , 为 新 一 代数 据 仓 库 所 需 的 大 规模 数据 和 复 
杂 查 询 功 能 提供 支持 。Greenplum 基于 MPP (海量 并 行 处 理 ) 和 Shared-Nothing (完全 无 共享 ) 
架构 , 采用 开源 软件 和 X86 商用 架构 。Greenplum 在 其 数据 库 中 引入 了 MapReduce 处 理 功 能 ， 其 
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执行 引擎 可 以 同时 处 理 SQL 查询 和 MapReduce 任务 ， 这 种 混合 方式 在 代码 级 整合 了 SQL 和 
MapReduce: SQL 可 以 直接 使 用 MapReduce 任务 的 输出 ， 同 时 MapReduce 任务 也 可 以 使 用 SQL 
的 查询 结果 作为 输入 。 

针对 Hadoop，EMC 还 推出 了 GreenplumHD。 该 工具 包含 Hadoop 分 布 式 文件 系统 HDFS、 
MapReduce、Hive、Pig、HBase 和 Zookeeper。GreenplumHD 包装 了 Hadoop 的 分 布 式 技术 ， 消 除 
了 从 头 开始 构建 分 布 Hadoop 集群 所 带 来 的 不 便 。Greenplum 也 纳入 到 Hadoop 的 可 插 拔 存储 层 ， 
使 用 者 能 够 在 数据 存储 过 程 中 选择 多 种 存储 方式 而 无 需 改 变现 有 应 用 程序 。 

针对 数据 处 理 过 程 的 协作 问题 ，EMC 推出 用 于 大 数据 处 理 的 社交 工具 集 Greenplum Chorus， 
使 得 数据 科学 家 可 以 通过 类 似 Facebook 的 社交 方式 进行 协作 完成 数据 处 理 任务 。 该 软件 基于 开放 
架构 ， 能 够 用 于 数据 挖掘 和 协作 分 析 ， 包 括 数据 探索 、 个 人 项 目 工作 空间 、 数 据 协作 分 析 和 发 布 
等 几 个 主要 环节 。 在 数据 探索 阶段 ，Greenplum Chorus 通过 搜索 引擎 快速 查找 数据 ， 并 将 数据 进 
行 关联 ， 从 而 实现 数据 采集 的 可 视 化 ; 在 处 理 阶段 ， 采 集 来 的 数据 被 放 到 个 人 沙 盒 中 进行 处 理 ， 
这 个 处 理 过程 不 会 影响 整个 数据 库 的 运行 ;在 协作 分 析 阶 段 ， 数 据 分 析 人 员 可 以 共享 工作 空间 、 
代码 ， 协 同 工 作 兼 具 灵 活性 和 安全 性 ; 最后， 相关 的 处 理 结果 被 发 布 出 来 。 上 述 处 理 过 程 循环 往 
复 ， 最 终 完成 数据 处 理工 作 。 

(6) Teradata 

Teradata 针对 大 数据 问题 ， 推 出 了 Aster Data 产品 ， 该 产品 将 SQL 和 MapReduce 进行 结合 ， 
针对 大 数据 分 析 提出 了 SQL/MapReduce 框架 ， 该 框架 允许 用 户 使 用 C++、Java、Python 等 语言 编 
写 MapReduce 函数 ， 编 写 的 函数 可 以 作为 一 个 子 查询 在 SQL 中 使 用 ， 从 而 同时 获得 SQL 的 易 用 
性 和 MapReduce 的 开放 性 。 除 此 以 外 ，Aster Data 基于 MapReduce 实现 了 30 多 个 统计 软件 包 ， 
从 而 将 数据 分 析 推 向 数据 库 内 进行 (数据 库 内 分 析 )， 提 高 了 数据 分 析 的 性 能 。 


2. 国内 公司 大 数据 研究 现状 
(1) 百度 


百度 作为 最 大 的 中 文 搜索 引擎 公司 ， 拥 有 海量 的 数据 ， 当 前 估计 有 三 千 亿 左右 的 中 文 网 页 ， 
大 约 有 10 至 50 个 PB， 并 且 这 些 数据 每 隔 一 小 时 就 会 发 生 较 大 的 变化 。 另 外 还 拥有 结构 化 的 日 志 
i 高 要 求 广 告 信息 、 百 度 知 道 、 百 度 文库 等 用 户 实时 产生 的 内 容 等 。 百 度 大 数据 的 特点 是 大 
而 杂 ， 为 了 实现 数据 的 实时 性 、 一 致 性 、 可 扩展 性 等 高 标准 要 求 ， 百 度 采用 了 自行 开发 的 存储 系 
统 ， 该 系统 有 三 个 方面 的 特点 : 


e 网 页 存储 ， 通 过 先 存 后 写 的 策略 将 随机 写 过 程 转换 成 顺序 写 ; 

e 存储 优化 ， 包 括 针对 访问 模式 的 优化 和 单机 性 能 的 提升 ， 等 等 ; 

日 删除 Flash Special， 直 接 针对 Flash 多 通道 存储 数据 ; 利用 多 副本 存储 ， 服 务 器 可 以 找到 
备份 ， 保 持 业务 的 连续 性 ; 针对 大 文件 进行 拆 片 存储 。 

(2) 阿里 数据 

2005 年 ， 淘 宝 成 立 商业 智能 部 门 ， 开 发 了 第 一 款 数据 分 析 产 品 





“ 淘 数 据 ”， 为 各 业务 公 
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司 、 部 门 提供 经 营 报表 。 

2009 年 ， 阿 里 数据 开始 进入 产品 化 时 代 。“ 淘 数据 ”从 一 个 内 部 报表 系统 跃升 为 内 部 数据 统 
称 。2009 年 4 月 和 12 月， 商业 智能 团队 又 分 别 开 发 出 可 预警 的 “KPI 系统 ” 服务 于 业务 部 门 的 
“数据 门户 ”。 

2009 年 ， 将 集团 各 公司 自行 搭建 的 Hadoop 集群 统一 ， 开 发 出 “云梯 ”系统 ， 以 实现 公司 内 
部 所 有 数据 的 打通 、 整 合 的 管理 和 共享 。2010 年 初 ， 淘 宝 推出 “数据 魔方 ”” 向 市 场 开放 全 局 市 
场 数 据 。 

2011 年 ， 淘 宝 接连 推出 “ 观 星 台 和 “地 动 仪 “黄金 策 ^“ 淘 宝 指数 ”和 “淘宝 时 光 机 ”等 
多 款 大 数据 产品 。“ 观 星 台 ” 是 一 个 高 度 可 视 化 的 仪表 盘 ， 选择 最 关键 的 数据 在 几 秒 内 展示 全 局 运 
营 状 况 ;“ 地 动 仪 ” 则 可 以 看 到 用 户 投诉 最 多 的 功能 有 哪些 , 甚至 可 以 获取 最 原始 的 客服 电话 录音 ; 
“淘宝 指数 ”可 以 告诉 用 户 数 据 的 长 期 走势 、 购 买 商品 的 人 群 特征 、 商 品 成 交 排行 等 重要 信息 。 

(3) 新 浪 

2013 年 ， 新 浪 推出 大 数据 产品 一 一 微 博 Page， 这 是 一 个 聚合 了 用 户 兴 趣 爱 好 、 社 交 关系 数据 
的 综合 展示 页 面 ， 话 题 、 图 书 、 音 乐 、 餐 饮 美食 等 内 容 都 能 在 微 博 上 生成 专属 的 Page 页 面 。 通过 
Page 页 面 ， 网 友 可 以 很 方便 地 查看 到 有 价值 的 微 博 内 容 。 

2012 年 4 月 15 日， 中 国 数据 库 技术 大 会 (DTCC)“NoSQL 数据 库 创新 专场 ”中 新 浪 微 博 开 
放 平 台 资 深 工程 师 唐 福 林 发 表 主题 演讲 《新 浪 微 博 ，Redis 的 大 数据 之 路 》， 介 绍 了 NoSQL 数据 
库 Redis 在 新 浪 微 博 的 使 用 场景 及 经 验 教训 。 新 浪 微 博 从 2010 年 底 开 始 使 用 Redis， 各 项 业务 指 
标 在 经 历 了 2011 年 全 年 的 疯狂 增长 之 后 ， 发 现在 很 多 场合 Redis 已 经 不 再 适用 。Redis 适用 于 数 
据 量 不 太 大 的 存储 ， 以 及 数据 量 大 的 缓存 。 在 选择 数据 存储 介质 的 时 候 要 分 清 数据 量 的 大 小 和 数 
据 的 冷 热 ， 小 而 热 的 数据 适合 使 用 内 存 ， 大 而 冷 的 数据 适合 使 用 磁盘 ， 大 而 热 的 数据 是 否 适合 使 
用 SSD， 仍 待 探讨 。 


(4) 腾讯 

腾讯 的 产品 线 非 常 广泛 ， 从 门户 网 站 到 微 博 、 视 频 、 电 子 商务 、 无 线 、 开 放 平台 等 多 个 跨 平 
台 领 域 。 腾 讯 的 大 数据 战略 ， 主 要 分 为 2C〈 个 人 ) 和 2B( 商 家) 两 个 部 分 ， 前 者 是 提升 用 户 体 
验 ， 后 者 带 来 有 效 的 广告 收益 。 

腾讯 将 调动 7 亿 活跃 账户 的 数据 支持 门户 服务 , 打造 基于 用 户 社交 关系 链 的 “下 一 代 腾 讯 网 ”。 
下 一 代 腾 讯 网 利用 大 数据 和 关系 链 ， 为 用 户 筛选 、 推 荐 最 适合 他 的 内 容 。 在 此 基础 上 ， 腾 讯 的 广 
告 产品 也 将 不 再 只 是 基于 传统 网 络 媒体 的 展示 ， 而 是 更 多 基于 用 户 社交 关系 链 的 口碑 营销 。 














1.3.3 政府 机 构 现状 


1. 联合 国 大 数据 研究 现状 


联合 国 于 2012 年 7 月 在 纽约 总 部 发 布 了 一 份 大 数据 政务 白皮书 , 总结 了 各 国政 府 如 何 利 用 大 
数据 更 好 地 服务 和 保护 人 民 。 
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在 名 为 《大 数据 促 发 展 : 挑战 与 机 遇 》 的 白皮书 中 ， 联 合 国 指出 大 数据 对 于 联合 国 和 各 国政 
府 来 说 是 一 个 历史 性 的 机 遇 ， 主 要 探讨 如 何 利用 包括 社交 网 络 在 内 的 大 数据 资源 造福 和 人 类。 该 报 
告 是 联合 国 “ 全 球 脉搏 ”项 目的 产物 。“ 全 球 脉搏 ”是 联合 国 发 起 的 一 个 全 新 项 目 ， 虽 在 利用 消费 
互联 网 的 数据 推动 全 球 发 展 。 利 用 自然 语言 解码 软件 ， 对 社交 网 络 和 手机 短信 中 的 信息 进行 情绪 
分 析 ， 从 而 对 失业 率 增 加 、 区 域 性 开支 降低 或 疾病 暴发 等 进行 预测 。 

联合 国 的 大 数据 白皮书 还 建议 联合 国 成 员 国 建设 “脉搏 实验 室 (Pulse Labs)”， 开 发 网 络 大 数 
据 的 潜在 价值 。 印 度 尼 西 亚 和 乌干达 作为 两 个 标杆 国家 率先 在 各 自 的 首都 雅加达 和 坎 贝 拉 建设 了 
脉搏 实验 室 。 其 中 雅加达 的 脉搏 实验 室 于 2012 年 9 月 投入 运行 ， 由 澳大利亚 提供 资助 。 


2. 美国 政府 大 数据 研究 现状 


2012 年 3 月 29 日 美国 政府 公布 了 “大 数据 研发 计划 ”(Big Data Research and Development 
Initiative)。 该 计划 的 目标 是 改进 现 有 人 们 从 海量 和 复杂 的 数据 中 获取 知识 的 能 力 ， 从 而 加 速 美国 
在 科学 与 工程 领域 发 明 的 步伐 ， 增 强国 家 安全 ， 转 变现 有 的 教学 和 学 习 方 式 。2012 年 3 月 底 , 美 
国政 府 发 布 《 大 数据 研究 开发 倡议 》， 以 美国 科学 与 技术 政策 办 公 室 为 首 ， 美 国 国家 科学 基金 会 、 
美国 国立 卫生 研究 院 、 国 防 部 、 能 源 部 等 已 经 开始 了 与 民间 企业 或 大 学 开展 多 项 大 数据 相关 的 各 
种 研究 开发 。 美 国政 府 为 此 拨 出 超过 2 亿美 元 的 研究 开发 预算 。 

在 这 一 背景 下 ， 美 国政 府 各 个 部 门 纷纷 开展 了 相关 的 研究 计划 。 


(1) 多 尺度 异常 检测 (ADAMS) 项 目 。 该 项 目 旨 在 解决 大 规模 数据 集 的 异常 检测 和 特征 化 
问题 。 项 目 中 对 异常 数据 的 检测 指 对 现实 世界 环境 中 各 种 可 操作 的 信息 数据 及 线索 的 收集 。 最 初 
的 ADAMS 应 用 程序 进行 内 部 威胁 检测 ， 在 日 常 网 络 活动 环境 中 ， 检 测 单独 的 异常 行动 。 

(2) 网 络 内 部 威胁 〈CINDER) 计划 。 该 项 目 旨 在 开发 新 的 方法 来 检测 军事 计算 机 网 络 与 
网 络 间谍 活动 。 作 为 一 种 揭露 隐藏 操作 的 手段 ，CINDER 适用 于 将 对 不 同类 型 对 手 的 活动 统一 成 
“规范 ”的 内 部 网 络 活动 ， 并 提高 对 网 络 威胁 检测 的 准确 性 和 速度 。 

(3) Insight 计划 。 该 计划 主要 解决 目前 情报 、 监 视 和 侦察 系统 的 不 足 ， 进 行 自动 化 和 人 机 
集成 推理 , 使 得 能 够 提前 对 时 间 敏 感 的 更 大 潜在 威胁 进行 分 析 。 该 计划 旨 在 开发 出 资源 管理 系统 ， 
通过 分 析 图 像 和 非 图 像 的 传感器 信息 和 其 他 来 源 的 信息 ， 进 行 网 络 威胁 的 自动 识别 和 非常 规 的 战 
争 行为 。 

(4) Machine Reading 项 目 。 该 项 目 旨 在 实现 人 工 智 能 的 应 用 和 发 展 学 习 系统 的 过 程 中 对 自 
然 文本 进行 知识 插入 ， 而 不 是 依靠 昂贵 和 费时 的 知识 表示 目前 的 进程 ， 并 需要 专家 和 相关 知识 工 
程 师 所 给 出 的 语义 表示 信息 。 

(5) Mind's Eye 项 目 。 该 项 目 旨 在 为 机 器 建立 视觉 的 智能 。 传 统 的 机 器 视觉 研究 的 对 象 选 
取 广 泛 的 物体 来 描述 一 个 场景 的 属性 名 词 ， 而 Mind's Eye 旨 在 增加 在 这 些 场景 的 动作 认识 和 推理 
需要 的 知觉 认 知 基础 。 总 之 ， 这 些 技术 可 以 建立 一 个 更 完整 的 视觉 智能 效果 。 

(6) 视频 和 图 像 的 检索 和 分 析 工 具 (VIRAT) 计划 。 该 计划 旨 在 开发 一 个 系统 ， 能 够 利用 
图 像 分 析 师 收集 的 数据 进行 大 规模 军事 图 像 分 析 。VIRAT 希望 能 够 帮助 图 像 分 析 师 在 相关 活动 发 
生 时 建立 警报 。 该 系统 还 包含 一 套 开 发 工具 ， 能 够 以 较 高 的 准确 率 和 召回 率 从 大 量 视频 库 中 对 视 
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频 内 容 进 行 检索 。 
(7) XDATA 项 目 。 该 项 目 旨 在 开发 用 于 分 析 大 量 半 结 构 化 和 非 结构 化 数据 的 计算 方法 和 软 
件 工 具 。 该 项 目 需 要 解决 的 核心 问题 包括 : 可 伸缩 算法 在 分 布 式 数据 存储 环境 中 的 应 用 方式 ， 如 
何 使 人 机 交互 工具 有 效 、 迅 速 定 制 不 同 任务 ， 以 方便 对 不 同 数据 进行 可 视 化 处 理 ; 灵活 使 用 开源 
软件 工具 包 ， 使 得 能 够 处 理 大 量 国防 应 用 中 的 数据 ， 等 等 。 
(8) Mission-oriented Resilient Clouds 项 目 。 该 项 目 通 过 云 计算 技术 进行 检测 ， 诊 断 并 对 大 
量 攻 击 行为 做 出 响应 ; 建立 “社区 卫生 服务 云 ” 以 解决 云 计 算 环 境 中 的 大 量 安全 挑战 。 该 项 目 还 
采用 新 技术 , 提高 云 计算 基础 设施 环境 和 其 中 的 大 数据 应 用 系统 的 可 用 性 。 保 证 系统 受到 攻击 时 ， 
只 要 整体 能 够 有 效 运行 和 保存 ， 人 允许 个 别 主 机 和 任务 失效 。 
(9) 对 加 密 数据 的 编程 计算 (PROCEED) 项 目 。 该 项 目 希 望 研发 一 套 实用 的 方法 ,支持 用 
户 采用 高 级 编程 语言 ， 在 不 需要 首次 解密 的 情况 下 操纵 已 加 密 的 数据 ， 使 得 对 手 拦截 信息 更 加 困 
难 ， 大 大 提高 数据 的 安全 性 。 
3. 日 本 政府 大 数据 研究 现状 
在 日 本 工业 界 ， 本 田 、 先 锋 等 企业 推出 的 基于 GPS 的 “道路 通行 图 ”在 受灾 地 区 救助 活动 中 
得 到 了 应 用 展示 ; NTT DoCoMo 公司 推出 的 基于 匿名 化 的 手机 定位 信息 展现 人 口 移动 的 “移动 空 
间 统 计 ” 也 是 一 个 大 数据 应 用 案例 。 但 是 ， 日 本 因为 企业 结构 上 的 冬 直 性 组 织 以 及 隐私 保护 等 问 
题 ， 往 往 难 以 有 效 采集 信息 ， 所 以 迫切 需要 建设 大 数据 应 用 所 需 的 平台 。 
在 上 述 背 景 下 ， 日 本 总 务 省 于 2012 年 7 月 推出 ICT 战略 研究 计划 :“ 活 力 ICT 日 本 ” 该 计 
划 将 重点 关注 “大 数据 应 用 ”。 该 计划 指出 :“ 提 升 日 本 竞争 力 ， 大 数据 应 用 不 可 或 缺 。” 该 计划 将 
“大 数据 ”定义 为 从 各 种 传感器 、 社 会 化 媒体 等 处 采集 到 的 海量 信息 ， 经 过 数据 分 析 ， 用 于 提升 
经 济 活动 的 效率 。 在 委员 会 中 担任 大 数据 研究 主任 的 东京 大 学 教授 森 川 博之 强调 ， 美 国 在 技术 上 
处 于 领先 ， 日 本 也 应 将 其 定位 为 战略 领域 之 一 。 
日 本 的 ICT 战略 将 重点 关注 大 数据 应 用 所 需 的 云 计算 、 传感器 、 社 会 化 媒体 等 智能 技术 开发 。 
新 医疗 技术 开发 、 缓 解 交 通 拥堵 等 公共 领域 将 会 得 到 大 数据 带 来 的 便利 与 贡献 。 根 据 日 本 野村 综 
合 研 究 所 的 分 析 显 示 ， 日 本 大 数据 应 用 带 来 的 经 济 效益 将 超过 20 万 亿 日 元 。 
4. 中 国政 府 大 数据 应 用 现状 
在 大 数据 领域 的 落后 ， 意 味 着 国家 安全 将 在 数字 空间 出 现 漏洞 ， 国 家 创新 能 力 将 在 未来 国际 
竞争 中 落后 于 人 。 因 此 ， 中 国政 府 一 直 大 力主 导 、 加 快 推进 大 数据 技术 的 研发 性 应 用 。 
向 服务 型 政府 转变 、 政 务 公 开 、 公 共事 业 的 发 展 等 ， 信 息 社会 的 不 断 进步 让 政府 部 门 越 来 越 
依赖 数据 的 分 析 进行 决策 。 对 大 数据 进行 深度 挖掘 、 发 展 趋势 分 析 ， 积 极 探索 更 多 的 应 用 场景 和 
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政府 在 2013 年 大 数据 主流 应 用 方向 。2012 年 ， 国 内 已 经 有 一 些 省 市 陆续 启动 了 大 


数据 战略 ,包括 建设 政务 数据 中 心 、 成 立 大 数据 研究 机 构 等 ， 大 数据 正在 成 为 全 社会 的 战略 资源 。 
从 国家 层面 上 看 , 国务 院 《* 十 二 五 ”国家 战略 性 新 兴 产 业 发 展 规划 》 中 提出 , 海量 数据 存储 、 

处 理 技术 的 研发 与 产业 化 将 作为 我 国 未 来 战略 新 兴 产 业 的 一 个 方面 ; 工业 和 信息 化 部 《 物 联 网 “十 

二 五 ”发 展 规划 》 也 将 信息 处 理 技术 列 为 4 项 关键 技术 创新 工程 之 一 ， 其 中 包括 海量 数据 存储 、 
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实战 大 数据 


数据 挖掘 、 图 像 视 频 智能 分 析 ， 另 外 3 项 关键 技术 创新 工程 ， 包 括 信息 感知 技术 、 信 息 传输 技术 、 
信息 安全 技术 ， 也 是 大 数据 产业 的 重要 组 成 部 分 ， 都 与 大 数据 产业 的 发 展 密 不 可 分 。 在 科学 研究 
领域 ，2014 年 度 的 “973” 项 目 指南 中 ,“ 大 数据 计算 的 基础 研究 ”已 经 作为 一 项 重点 研究 课题 ， 
主要 面向 网 络 信息 空间 大 数据 挖掘 的 需求 ， 结 合 1~2 种 重要 应 用 ， 研 究 多 源 异 构 大 数据 的 表示 、 
度量 和 语义 理解 方法 ， 研 究 建 模 理论 和 计算 模型 ， 提 出 能 效 优化 的 分 布 存 储 和 处 理 的 硬件 及 软件 
系统 架构 ， 分 析 大 数据 的 复杂 性 、 可 计算 性 与 处 理 效率 的 关系 ， 为 建立 大 数据 的 科学 体系 提供 理 
论 依据 。 

从 地 方 政府 层面 上 看 ， 许 多 城市 都 在 开展 与 智慧 城市 相关 的 信息 化 建设 项 目 ， 包 含 测绘 以 及 
城市 地 图 、 政 府 管理 与 决策 的 信息 化 、 企 业 管理 决策 与 服务 的 信息 化 以 及 数字 城市 生活 等 方 方 面 
面 。 以 智慧 北京 为 例 ， 近 年 来 ， 北 京 各 相关 单位 积极 筹建 各 类 信息 化 系统 ， 在 基础 设施 建成 的 基 
础 上 ， 逐 步 实现 信息 、 数 据 共 享 ， 建 成 北京 市 现代 城市 交通 网 络 系统 、 数 字 政 务 管理 系统 ， 以 及 
北京 旅游 信息 系统 等 。 在 实现 部 分 系统 城市 内 信息 互通 的 基础 上 ， 与 一 些 地 区 逐步 实现 联网 ， 达 
到 资源 远程 共享 。 除 此 以 外 ， 政 务 信息 开放 、 与 情 监控 、 平 安 城市 、 预 警 预案 等 多 种 项 目的 实施 
也 在 不 断 推动 大 数据 产业 的 过 勃发 展 。 





大 数据 的 应 用 领域 


全 球 著名 咨询 公司 麦肯锡 认为 ， 只 要 给 予 适 当 的 政策 支持 ,“ 大 数据 ” 将 引发 新 一 轮 的 生产 力 
增长 与 创新 ,“ 大 数据 ”中 蕴含 着 尚未 开发 的 巨大 价值 。 例 如 ， 充 分 利用 “大 数据 ”的 零售 商 将 能 
够 使 营业 额 利润 率 提高 60% 以 上 ; 如 果 美 国医 疗 保健 行业 有 效 利用 “大 数据 ”就 能 够 把 成 本 降 
低 8% 左 右 ， 从 而 每 年 创造 出 3000 多 亿美 元 的 产值 ， 在 欧洲 发 达 国 家 ， 如 果 政 府 利用 “大 数据 ” 
提高 运作 效率 , 那么 将 节省 至 少 1000 亿 欧 元 的 成 本 ; 而 利用 个 人 位 置 数据 提供 的 服务 将 可 以 创造 
6000 亿美 元 的 消费 者 剩余 。 

大 数据 的 迅速 增长 及 相关 技术 的 发 展 正在 带 来 全 新 的 商业 机 遇 。2011 年 完成 的 “新 智能 企业 
全 球 高 管 调查 和 研究 项 目 ” 指 出 ， 绝 大 多 数 企 业 都 已 抓 住 了 大 数据 的 机 遇 ，2011 年 ，58% 的 企业 
已 经 将 大 数据 分 析 技 术 用 于 在 市 场 或 行业 内 创造 竞争 优势 ， 而 2010 年 这 一 比例 仅 为 37%。 值 得 
注意 的 是 ， 采 用 分 析 技 术 的 企业 持续 超越 同行 的 可 能 性 要 高 两 倍 。 

麦肯锡 对 医疗 保健 、 零 售 、 公 共 领 域 、 制 造 、 个 人 位 置 数据 这 5 大 领域 进行 了 重点 分 析 ， 提 
出 了 可 以 利用 “大 数据 ”的 5 种 方法 。 


(1) 以 时 效 性 更 高 的 方式 向 用 户 提供 “大 数据 ”。 在 公共 领域 ， 跨 部 门 提供 “大 数据 ”能 大 
幅 减 少 检索 与 处 理 时 间 。 在 制造 业 ， 集 成 来 自 研发 、 工 程 、 制 造 单元 的 数据 可 以 实现 并 行 工程 ， 
缩短 产品 投放 市 场 的 时 间 。 

(2) 通过 展开 数据 分 析 和 实验 寻找 变化 因素 并 改善 产品 性 能 。 由 于 越 来 越 多 的 交易 数据 都 以 
数字 形式 存在 ， 各 机 构 可 以 收集 有 关 产 品 或 用 户 的 更 加 精确 和 详尽 的 数据 。 
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(3) 区 分 用 户 群 ， 提 供 个 性 化 服务 。“ 大 数据 ”能 帮助 机 构 对 用 户 群 进行 更 加 细 化 的 区 分 ， 
并 针对 用 户 的 不 同 需求 提供 更 加 个 性 化 的 服务 。 这 是 营销 和 危机 管理 方面 常用 的 方法 ， 但 也 可 以 
为 公共 领域 等 带 来 变革 。 

(4) 利用 自动 化 算法 支持 或 蔡 代 人 工 决策 。 复 杂 分 析 能 极 大 改善 决策 效果 ， 降 低 风 险 ， 并 控 
掘 出 其 他 方法 无 法 发 现 的 宝贵 信息 。 此 类 复杂 分 析 可 用 于 税务 机 构 、 零 售 商 等 。 

(5) 商业 模式 、 产 品 与 服务 创新 。 制 造 商 正在 利用 产品 使 用 过 程 中 获得 的 数据 来 改善 下 一 代 
产品 开发 ， 以 及 提供 创新 性 售后 服务 。 实 时 位 置 数据 的 兴起 带 来 了 一 系列 基于 位 置 的 移动 服务 ， 
例如 导航 和 人 物 跟踪 。 


通过 上 述 分 析 ， 可 以 看 出 大 数据 可 在 制造 业 、 服 务 业 、 交 通 、 医 疗 等 领域 得 到 广泛 的 应 用 ， 
下 面 将 一 一 进行 阐述 。 





1.4.1 大 数据 在 制造 业 的 应 用 


制造 业 目 前 正在 向 信息 化 和 自动 化 的 方向 发 展 。 在 产品 的 设计 、 生 产 和 销售 中 ， 越 来 越 多 的 
企业 使 用 计算 机 辅助 设计 (CAD)、 计 算 机 辅助 制造 (CAM) 等 软件 ， 数 控 机 床 、 传 感 器 等 设备 ， 
物料 需求 计划 (MRP)、 企 业 资 源 计 划 (ERP) 等 系统 。 这 些 信息 技术 的 应 用 大 大 提高 了 工作 效率 
和 产品 质量 。 

然而 ， 随 着 信息 化 的 不 断 深 入 ， 制 造 业 目前 所 面临 的 挑战 是 在 产业 化 和 信息 化 之 后 ， 如 何 提 
升 获取 和 开拓 市 场 需求 的 能 力 ， 从 而 创造 出 更 有 价值 的 商品 。 如 今 ， 企 业 管 理 信息 系统 中 存储 的 
信息 ， 各 种 工业 传感器 和 数控 设备 中 产生 的 数据 ， 都 将 汇集 到 一 起 形成 大 数据 ， 以 提高 生产 效率 
为 目标 的 信息 化 制造 业 转 变 成 以 掌握 用 户 需 求 为 目标 的 智慧 化 制造 业 。 大 数据 为 制造 业 的 创新 转 
型 (无 论 是 精益 化 提升 还 是 服务 化 转型 ) 提供 了 新 的 路 径 和 方式 。 

另 一 方面 ， 海 量 数据 扩大 了 算法 和 运筹 学 的 应 用 领域 。 例 如 ， 在 部 分 制造 企业 ， 算 法 对 生产 
线 的 传感器 信息 进行 分 析 ， 形 成 了 自我 调节 的 流程 ， 从 而 减少 了 浪费 ， 避 免 了 代价 高 郧 (有 时 还 
十 分 危险 ) 的 人 为 干预 ， 最 终 提 升 产量 。 在 先进 的 “数码 化 ” 油田， 仪表 不 时 读 取 有 关 井 口 状况 、 
管道 和 机 械 系统 的 各 类 数据 ， 这 些 信息 由 一 组 计算 机 进行 分 析 ， 并 将 结果 输入 实时 运营 中 心 。 运 
营 中 心 则 调整 油 量 以 优化 生产 和 最 大 限度 缩短 停机 时 间 。 基 于 这 一 思路 ， 一 家 大 型 石油 公司 减少 
了 10%~25% 的 运营 成 本 和 员工 成 本 ， 产 量 则 提高 了 5%。 

现在 ， 从 复印 机 到 喷气 发 动机 等 各 种 产品 都 可 以 产生 能 跟踪 其 使 用 情况 的 数据 流 。 制 造 商 能 
够 分 析 输 入 数据 ， 并 有 可 能 主动 纠正 软件 缺陷 或 派 遗 服务 代表 到 现场 维修 。 一 些 计算 机 硬件 供应 
商 正 在 收集 和 分 析 这 些 信 息 ， 在 发 生 故 障 导致 客户 运营 中 断 前 未 雨 绸 纽 ， 提 前 维护 。 这 些 信息 还 
可 以 用 于 实施 产品 变化 、 预 防 未 来 问题 的 发 生 、 提 供 客 户 使 用 信息 等 方面 ， 为 下 一 代 产 品 开发 提 
供 灵感 和 思路 。 
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1.4.2 大 数据 在 服务 业 的 应 用 


传统 的 服务 业 有 着 悠久 的 历史 。 当 信息 时 代 到 来 的 时 候 ， 服 务 业 就 衍化 出 现 了 两 种 形态 : 一 
种 是 信息 技术 与 服务 业 相 结合 的 信息 服务 业 ， 另 一 种 是 应 用 信息 技术 改造 传统 服务 业 而 来 的 服务 
业 。 前 者 包括 计算 机 软件 、 通 信服 务 、 信 息 咨 询 服务 等 ， 后 者 包括 信息 化 改造 后 的 商业 、 金 融 业 、 
旅游 业 等 。 大 数据 恰恰 就 在 这 两 者 之 间 起 到 牵线 搭桥 的 作用 : 一 方面 它 使 得 信息 服务 业 从 提供 软 
硬件 技术 服务 升级 到 提供 智慧 解决 方案 ， 另 一 方面 它 将 改变 现 有 的 服务 业 业 态 模式 ， 将 关注 点 转 
向 数据 。 

在 信息 服务 业 ， 最 常见 的 大 数据 分 析 当 属 网 络 公司 收集 用 户 的 网 页 单 击 行为 提供 有 个 性 化 的 
广告 与 信息 推送 服务 ， 需 要 注意 的 是 这 些 行为 需要 考虑 用 户 隐私 的 保护 问题 。 

在 信息 化 改造 后 的 服务 业 ， 大 数据 更 是 无 处 不 在 。 在 零售 行业 ， 厂 商 可 以 通过 互联 网 单 击 流 
实时 跟踪 客户 行为 、 更 新 客户 偏好 、 建 立 可 能 行为 的 模型 。 在 此 基础 上 ， 厂 商 能 够 确定 客户 下 次 
购买 的 时 间 ， 通 过 捆绑 优选 商品 、 提 供 省 钱 的 奖励 性 计划 、 对 交易 实施 微调 等 措施 ， 最 终 使 得 整 
个 销售 圆满 结束 。 在 金融 行业 ， 银 行 可 以 从 大 量 数据 中 发 现 信 用 卡 欺诈 和 盗用 ; 理财 网 站 从 统计 
的 消费 数据 中 来 预测 宏观 的 经 济 趋势 ， 保 险 公司 通过 大 数据 能 够 找 出 可 疑 的 权利 要 求 。 在 旅游 行 
业 ， 企业 致力 于 旅游 预订 数据 的 收集 、 分 析 与 处 理 , 例如 微软 的 Bing 搜索 引擎 能 够 根据 其 存储 的 
机 票 历史 数据 ， 帮 助 用 户 决定 购买 航班 的 最 佳 时 间 和 最 优惠 价格 。 


1.4.3 ”大 数据 在 交通 行业 的 应 用 


当前 ， 出 行 难 问题 对 各 大 城市 来 说 都 吸 待 解决 。 可 以 利用 先进 的 传 感 技术 、 网 络 技术 、 计 算 
技术 、 控 制 技术 、 智 能 技术 ， 对 道路 和 交通 进行 全 面 感知 。 而 在 大 数据 时 代 下 的 智慧 交通 ， 需 要 
融合 传感器 、 监 视 视频 和 GPS 等 设备 产生 的 海量 数据 ， 甚 至 与 气象 监测 设备 产生 的 天 气 状况 等 数 
据 相 结合 ， 从 中 提取 出 人 们 真正 需要 的 信息 ， 及 时 而 准确 地 进行 发 布 和 传送 ， 通 过 计算 直接 提供 
最 佳 的 出 行 方式 和 路 线 。 


1.4.4 大 数据 在 医疗 行业 的 应 用 


医疗 保健 问题 是 当前 社会 普遍 关注 的 焦点 问题 。 以 往 ， 人 们 总 是 在 发 现 自己 生病 时 才 看 病 就 
医 ， 而 且 到 了 医院 还 要 经 历 挂号 、 求 诊 、 配 药 等 复杂 流程 ， 整 个 过 程 需要 耗费 大 量 时 间 ， 容 易 形 
成 就 医 难 的 困境 。 如 今 ， 基 于 电子 医疗 记录 技术 ， 电 子 病历 正 逐 渐 被 各 大 医疗 机 构 所 采用 。 在 去 
医院 前 ， 可 以 通过 网 上 预约 挂号 ; 在 就 医 时 ， 仅 使 用 一 张 IC 卡 就 能 付费 ; 医生 还 可 以 将 问 诊 过 程 
中 的 记录 ， 病 人 的 化 验 单 、 拍 片 等 诊断 数据 输入 电脑 以 备 随时 调用 。 

在 大 数据 时 代 ， 可 以 将 医疗 机 构 的 电子 病历 记录 标准 化 ， 形 成 全 方位 多 维度 的 大 数据 仓库 。 
系统 首先 全 面 分 析 患 者 的 基本 资料 、 诊 断 结果 、 处 方 、 医 疗 保险 情况 和 付款 记录 等 诸多 数据 ， 再 
将 这 些 不 同 的 数据 综合 起 来 ， 在 医生 的 参与 下 通过 决策 支持 系统 选择 最 佳 的 医疗 护理 解决 方案 。 
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.与 ”本 章 小 结 


本 章 首先 对 大 数据 产生 过 程 的 相关 历史 进行 了 介绍 ， 并 对 大 数据 的 5 个 代表 性 定义 进行 了 解 
读 ， 帮 助 读者 对 “大 数据 ”这 一 概念 进行 深入 理解 。 本 章 的 第 二 部 分 以 ACM 数据 库 专家 组 的 观 
点 为 例 ， 介 绍 了 大 数据 的 主要 研究 内 容 ， 并 总 结 了 大 数据 在 国内 外 产业 界 、 学 术 界 和 政府 机 构 的 
研究 现状 。 最 后 ， 本 章 介 绍 了 大 数据 的 可 能 应 用 领域 ， 并 重点 阐述 了 具有 代表 性 的 制造 、 服 务 、 
交通 和 医疗 4 个 行业 的 实际 应 用 现状 与 前 景 。 希 望 读者 通过 本 章 的 学 习 ， 能 够 掌握 大 数据 的 基本 
概念 、 发 展 历史 、 研 究 内 容 和 研究 现状 。 
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第 2 章 
数据 存储 技术 


本 章 主要 介绍 了 数据 存储 技术 的 概念 与 研究 现状 ,分析 了 海量 数据 存储 的 关键 技术 ， 最 后 介绍 
了 海量 数据 存储 的 实现 与 工具 。 通 过 本 章 的 学 习 ， 读 者 可 对 数据 存储 有 充分 了 解 。 





随 着 经 济 全 球 化 的 不 断 发 展 ， 国 际 性 的 大 型 企业 不 断 涌现 ， 其 数 以 亿 万 计 的 用 户 来 自 全 球 各 
也 ， 其 业务 数据 量 非常 大 。 另 外 还 有 一 些 传统 的 大 数据 量 应 用 单位 ， 如 国家 地 震 局 、 国 家 气象 局 、 
司 家 图 书馆 、 中 央 电 视 台 等 其 数据 量 可 多 达 几 十 PB。 对 于 这 样 的 单位 和 企业 ， 如 何 解决 其 大 量 数 
据 存储 与 有 效 使 用 成 为 其 业务 的 核心 问题 之 一 。 其 对 数据 存储 提出 了 诸多 要 求 : 


@ 对 性 能 的 要 求 。 由 于 这 些 大 型 数据 中 心 将 承载 全 国 乃 至 全 球 巨大 的 检索 访问 量 ， 所 以 对 后 
台 存 放 检 索 信 息 数据 的 存储 设备 性 能 要 求 极 高 。 数 字 资 源 的 全 球 共享 使 得 数据 交换 量 激 
增 ， 同 样 也 要 求 后 台 存 储 设备 提供 极 高 的 性 能 。 

@ 对 容量 的 要 求 。 地 震 局 、 气 象 局 拥有 数 亿 万 份 逐 感 观测 数据 、 中 间 计 算 结果 、 历 史 数 据 等 ; 
图 书馆 拥有 数 千 万 的 电子 图 书 、 电 子 刊物 、 电 子 图 片 等 ; 电视 台 拥有 数 百 万 份 音频 资料 、 
视频 资料 等 ; 大 型 企业 拥有 数 亿 份 的 客户 资料 . 每 一 家 的 数据 都 将 占用 数 十 PB 的 存储 容 
量 ,而 随 着 数据 资源 的 不 断 丰 富 和 交换 ， 容 量 还 将 不 断 扩大 。 

@ 对 数据 资源 有 效 管理 的 要 求 。 当 拥有 海量 数据 后 就 要 对 海量 数据 进行 有 效 的 管理 , 合理 利 
用 IT 软件 、 硬 件 设施 管理 这 些 数据 , 使 得 数据 在 其 生命 周期 内 得 到 最 大 的 利用 率 , 而 消 
耗 最 少 的 IT 资源 , 以 得 到 最 大 的 投资 回报 。 

。 对 数据 资源 保护 的 要 求 。 大 型 数据 中 心 内 的 海量 数据 不 是 生死 做 关 的 用 户 数据 , 就 是 凝结 
了 无 数 工程 人 员 心 血 的 劳动 成 果 , 这 些 数据 资源 都 是 企业 和 单位 最 宝贵 的 财富 , 对 于 这 些 
宝贵 的 财富 应 该 采取 一 定 的 措施 避免 由 于 人 为 误 操作 、 设 备 损坏 、 火 灾 等 意外 情况 造成 的 
损失 。 


综 上 所 述 ， 海 量 数据 存储 的 解决 方案 至 关 重 要 ， 本 章 将 介绍 数据 获取 与 存储 技术 的 概念 以 及 
- 些 流行 的 工具 与 实现 。 























数据 存储 技术 介绍 


随 着 大 数据 应 用 的 爆发 性 增长 ， 它 已 经 衍生 出 了 自己 独特 的 架构 ， 而 且 也 直接 推动 了 存储 、 
网 络 以 及 计算 技术 的 发 展 。 毕 竟 处 理 大 数据 这 种 特殊 的 需求 是 一 个 新 的 挑战 。 硬 件 的 发 展 最 终 还 
是 由 软件 需求 推动 的 ， 可 以 很 明显 地 看 到 大 数据 分 析 应 用 需求 正在 影响 着 数据 存储 基础 设施 的 发 
展 。 从 另 一 方面 看 ， 这 一 变化 对 存储 厂商 和 其 他 IT 基础 设施 厂商 未 党 不 是 一 个 机 会 。 随 着 结构 化 
数据 和 非 结构 化 数据 量 的 持续 增长 ， 以 及 分 析 数 据 来 源 的 多 样 化 ， 此 前 存储 系统 的 设计 已 经 无 法 
满足 大 数据 应 用 的 需要 。 存 储 厂商 已 经 意识 到 这 一 点 ， 开 始 修改 基于 块 和 文件 的 存储 系统 的 架构 
设计 以 适应 这 些 新 的 要 求 。 

针对 大 数据 的 世界 领先 品牌 存储 企业 有 : IBM、EMC、LSISandForce 、 INTEL、 惠 普 、 戴 
尔 、 甲 骨 文 、 日 立 、 赛 门 铁 克 等 。 

对 于 大 数据 的 存储 ， 存 在 以 下 几 个 不 可 忽视 的 问题 。 


1. 容量 问题 


这 里 所 说 的 “大 容量 ”通常 可 达到 PB 级 的 数据 规模 ， 因 此 ， 海 量 数据 存储 系统 也 一 定 要 有 
相应 等 级 的 扩展 能 力 。 与 此 同时 ， 存 储 系统 的 扩展 一 定 要 简便 ， 可 以 通过 增加 模块 或 磁盘 柜 来 增 


加 容量 ， 
决 方案 ， 


甚至 不 需要 停机 。 在 解决 容量 问题 上 ， 不 得 不 提 及 LSI 公司 的 全 新 Nytro 智能 化 闪存 解 
采用 Nytro 产品 ,客户 可 以 将 数据 库 事务 处 理性 能 提高 30 倍 ， 并且 超过 每 秒 4.0GB 的 持 


续 吞 吐 能 力 ， 非 常 适用 于 大 数据 分 析 。 

2. 延迟 问题 

“大 数据 ”应 用 还 存在 实时 性 的 问题 。 特 别 是 涉及 与 网 上 交易 或 者 金融 类 相关 的 应 用 时 。 有 
很 多 “大 数据 ”应 用 环境 需要 较 高 的 IOPS 性 能 ， 比 如 HPC 高 性 能 计算 。 此 外 ， 服 务 器 虚拟 化 的 
普及 也 导致 了 对 高 IOPS 的 需求 ， 正 如 它 改 变 了 传统 IT 环境 一 样 。 为 了 迎接 这 些 挑战 ， 各 种 模式 
的 固态 存储 设备 应 运 而 生 ， 小 到 简单 的 在 服务 器 内 部 做 高 速 缓 存 ， 大 到 全 固态 介质 可 扩展 存储 系 
统 通过 高 性 能 闪存 存储 ， 自 动 、 智 能 地 对 热点 数据 进行 读 / 写 ， 高 速 缓存 的 LSI Nytro 系列 产品 等 
都 在 鞍 勃 发 展 。 

3. 安全 问题 

某 些 特殊 行业 的 应 用 ， 比 如 金融 数据 、 医 疗 信息 以 及 政府 情报 等 都 有 自己 的 安全 标准 和 保密 


性 需求 。 


虽然 对 于 IT 管理 者 来 说 这 些 并 没有 什么 不 同 ， 而 且 都 是 必须 遵从 的 ， 但 是 ， 大 数据 分 析 


往往 需要 多 类 数据 相互 参考 ， 而 在 过 去 并 不 会 有 这 种 数据 混合 访问 的 情况 ， 大 数据 应 用 催生 出 一 


些 新 的 、 
闪存 处 再 


需要 考虑 的 安全 性 问题 ， 这 就 充分 体现 出 利用 基于 DuraClass™ 技术 的 LSI SandForceR 
E 器 的 优势 ， 实 现 了 企业 级 闪存 性 能 和 可 靠 性 ， 实 现 简 单 、 透 明 的 应 用 加 速 ， 既 安全 又 方 





便 。 
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4. 成 本 问题 

对 于 那些 正在 使 用 大 数据 环境 的 企业 来 说 ， 成 本 控制 是 关键 的 问题 。 想 控制 成 本 ， 就 意味 着 
要 让 每 一 台 设备 都 实现 更 高 的 “效率 ” 同时 还 要 减少 那些 昂贵 的 部 件 。 目 前 ， 像 重复 数据 删除 等 
技术 已 经 进入 主 存储 市 场 ， 而 且 现在 还 可 以 处 理 更 多 的 数据 类 型 ， 这 都 可 以 为 大 数据 存储 应 用 带 
来 更 多 的 价值 ， 提 升 存储 效率 。 在 数据 量 不 断 增长 的 环境 中 ， 通 过 减少 后 端 存储 的 消耗 ， 哪 怕 只 
是 降低 几 个 百分点 ， 这 种 锚 铁 必 较 的 服务 器 〈 也 只 有 LSI 推 出 的 SyncrorM MX-B 机 架 服 务 器 启动 
盘 设 备 ) 都 能 够 获得 明显 的 投资 回报 ， 当 今 ， 数 据 中 心 使 用 的 传统 引导 驱动 器 不 仅 故障 率 高 ， 而 
且 具 有 较 高 的 维修 和 更 换 成 本 。 如 果 用 它 蔡 换 数据 中 心 的 独立 服务 器 引导 驱动 器 ， 则 能 将 可 靠 性 
提升 多 达 100 倍 。 并 且 对 主机 系统 是 透明 的 ， 能 为 每 一 个 附加 服务 器 提供 唯一 的 引导 镜像 ， 可 简 
化 系统 管理 ， 提 升 可 靠 性 ， 并 且 节 电 率 高 达 60%， 真 正 做 到 了 节省 成 本 。 


5. 数据 的 积累 

许多 大 数据 应 用 都 会 涉及 法 规 遵 从 问题 ， 这 些 法 规 通 常 要 求 数据 要 保存 几 年 或 者 几 十 年 。 比 
如 医疗 信息 通常 是 为 了 保证 患者 的 生命 安全 ， 而 财务 信息 通常 要 保存 7 年 。 而 有 些 使 用 大 数据 存 
储 的 用 户 却 希望 数据 能 够 保存 更 长 的 时 间 ， 因 为 任何 数据 都 是 历史 记录 的 一 部 分 ， 而 且 数 据 的 分 
析 大 都 是 基于 时 间 段 进行 的 。 要 实现 长 期 的 数据 保存 ， 就 要 求 存储 厂商 开发 出 能 够 持续 进行 数据 
一 致 性 检测 的 功能 以 及 其 他 保证 长 期 高 可 用 的 特性 。 同 时 还 要 实现 数据 直接 在 原 位 更 新 的 功能 需 
求 。 


6. 灵活 性 


大 数据 存储 系统 的 基础 设施 规模 通常 都 很 大 ， 因 此 必须 经 过 仔细 设计 ， 才 能 保证 存储 系统 的 
灵活 性 ， 使 其 能 够 随 着 应 用 分 析 软 件 一 起 扩容 及 扩展 。 在 大 数据 存储 环境 中 ， 已 经 没有 必要 再 做 
数据 迁移 了 ， 因 为 数据 会 同时 保存 在 多 个 部 署 站 点 。 一 个 大 型 的 数据 存储 基础 设施 一 旦 开始 投入 
使 用 ， 就 很 难 再 调整 了 ， 因 此 它 必 须 能 够 适应 各 种 不 同 的 应 用 类 型 和 数据 场景 。 


7. 应 用 感知 


最 早 一 批 使 用 大 数据 的 用 户 已 经 开发 出 了 一 些 针对 应 用 的 定制 的 基础 设施 ， 比 如 针对 政府 项 
目 开 发 的 系统 ， 还 有 大 型 互联 网 服务 商 创 造 的 专用 服务 器 等 。 在 主流 存储 系统 领域 ， 应 用 感知 技 
术 的 使 用 越 来 越 普 遍 ， 它 也 是 改善 系统 效率 和 性 能 的 重要 手段 ， 所 以 ， 应 用 感知 技术 也 应 该 用 在 
大 数据 存储 环境 里 。 


8. 针对 小 用 户 


依赖 大 数据 的 不 仅仅 是 那些 特殊 的 大 型 用 户 群 体 ， 作 为 一 种 商业 需求 ， 小 型 企业 未 来 也 一 定 
会 应 用 到 大 数据 。 有 些 存储 厂商 已 经 在 开发 一 些小 型 的 “大 数据 ”存储 系统 ， 主 要 吸引 那些 对 成 
本 比较 敏感 的 用 户 。 
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数据 采集 与 存储 技术 研究 现状 


目前 ， 大 部 分 互联 网 应 用 仍然 使 用 传统 关系 型 数据 库 进行 数据 的 存储 管理 ， 并 通过 编写 SQL 
语句 或 者 MPI 程序 来 完成 对 数据 的 分 析 处 理 。 这 样 的 系统 在 用 户 规模 和 数据 规模 都 相对 较 小 的 情 
况 下 ， 可 以 高 效 地 运行 。 但 是 ， 随 着 用 户 数量 、 存 储 管理 的 数据 量 的 不 断 增加 ， 许 多 热门 的 互联 
网 应 用 在 扩展 存储 系统 以 应 对 更 大 规模 的 数据 量 和 满足 更 高 的 访问 量 时 都 遇 到 了 问题 。 


2.2.1 传统 关系 型 数据 库 


传统 关系 型 数据 库 在 数据 存储 管理 的 发 展 史上 是 一 个 重要 的 里 程 碑 。 在 互联 网 时 代 以 前 ， 数 
据 的 存储 管理 应 用 主要 集中 在 金融 、 证 券 等 商务 领域 。 这 类 应 用 主要 面向 结构 化 数据 ， 聚 焦 于 便 
捷 的 数据 查询 分 析 能 力 、 按 照 严 格 规则 快速 处 理事 物 的 能 力 、 多 用 户 并 发 访问 能 力 以 及 数据 安全 
性 的 保证 。 而 传统 关系 型 数据 库 正 是 针对 这 种 需求 而 设计 的 ， 并 以 其 结构 化 的 数据 组 织 形 式 、 严 
格 的 一 致 性 模型 、 简 单 便捷 的 查询 语言 、 强 大 的 数据 分 析 能 力 以 及 较 高 的 程序 与 数据 独立 性 等 优 
点 获得 广泛 应 用 。 

然而 随 着 互联 网 时 代 的 到 来 ， 数 据 已 超出 关系 型 数据 库 管理 的 范畴 ， 电 子 邮件 、 超 文本 、 博 
客 、 标 签 以 及 图 片 、 多 媒体 等 各 种 非 结构 化 数据 逐渐 成 为 了 需要 存储 和 处 理 的 海量 数据 的 重要 组 
成 部 分 。 面 向 结构 化 数据 存储 的 关系 型 数据 库 已 经 不 能 满足 互联 网 数据 快速 访问 、 大 规模 数据 分 
析 的 需求 。 主 要 表现 在 以 下 几 个 方面 。 

1. 应 用 场景 的 局 限 性 

传统 数据 库 在 设计 上 , 着 眼 于 面向 结构 化 的 数据 ,致力 于 事务 处 理 , 要 求 保证 严格 的 一 致 性 。 
这 些 特性 符合 传统 的 金融 、 经 济 等 应 用 场景 。 然 而 互联 网 应 用 主要 面向 半 结 构 化 、 非 结构 化 的 数 
据 ， 这 些 应 用 大 多 没有 事务 特性 ， 也 不 需要 很 严格 的 一 致 性 保证 。 虽 然 传统 数据 库 的 厂商 也 针对 
海量 数据 应 用 特点 提出 了 一 系列 改进 方案 ,但 是 由 于 并 不 是 从 互联 网 应 用 的 角度 去 设计 解决 方案 ， 
使 得 传统 数据 库 在 应 对 互联 网 海量 数据 存储 效果 上 并 不 理想 。 

2. 关系 模型 束缚 对 海量 数据 的 快速 访问 能 力 

关系 模型 是 一 种 按 内 容 访问 的 模型 。 即 在 传统 的 关系 型 数据 库 中 ， 根 据 列 的 值 来 定位 相应 的 
行 。 这 种 访问 模型 ,会 在 数据 访问 过 程 中 引入 耗 时 的 输入 输出 ， 从 而 影响 快速 访问 的 能 力 。 虽然 ， 
传统 的 数据 库 系 统 可 以 通过 分 区 的 技术 水 平分 区 和 垂直 分 区 ) ， 来 减少 查询 过 程 中 数据 输入 输 
出 的 次 数 以 缩减 响应 时 间 ， 提 高 数据 处 理 能 力 ， 但 是 在 海量 数据 的 规模 下， 这 种 分 区 所 带 来 的 性 
能 改善 并 不 显著 。 

关系 模型 中 规格 化 的 范式 设计 与 Web 2.0 的 很 多 特性 相互 矛盾 。 以 标签 为 例 ， 标 签 的 分 类 模 
型 是 一 种 复杂 的 多 对 多 关系 模型 。 传 统 数据 库 的 范式 设计 要 求 消除 元 余 性 ， 因 此 标签 和 内 容 将 会 
被 存储 在 不 同 的 表 中 ， 导 致 对 于 标签 的 操作 需要 跨 表 完成 〈 在 分 区 的 情况 下 ， 可 能 需要 跨 磁盘 、 
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跨 机 器 操作 ) ， 致 使 系统 性 能 低下 。 
3. 缺乏 对 非 结构 化 数据 的 处 理 能 力 


传统 的 关系 型 数据 库 对 数据 的 处 理 只 局 限于 某 些 数据 类 型 ， 比 如 数字 、 字 符 、 字 符 串 等 ， 对 
非 结构 化 数据 图片、 音频 等 的 支持 较 差 。 然 而 随 着 用 户 应 用 需求 的 提高 、 硬 件 技术 的 发 展 和 
互联 网 上 多 媒体 交流 方式 的 推广 ， 用 户 对 多 媒体 处 理 的 要 求 从 简单 的 存储 上 升 为 识别 、 检 索 和 深 
入 加 工 ， 面 对 日 益 增 长 的 处 理 庞大 的 声音 、 图 像 、 视 频 、E-mail 等 复杂 数据 类 型 的 需求 ， 传 统 数 
据 库 已 显得 力不从心 。 


4. 扩展 性 差 


在 海量 规模 下 ， 传 统 数 据 库 的 一 个 致命 弱点 ， 就 是 其 可 扩展 性 差 。 解 决 数据 库 扩展 性 问题 ， 
通常 有 两 种 方式 ， 向 上 扩展 (Scale up) 和 向 外 扩展 Scale out) 。 这 两 种 扩展 方式 分 别 从 两 个 不 
同 的 维度 来 解决 数据 库 在 海量 数据 下 的 压力 问题 。 向 上 扩展 ， 简 而 言 之 就 是 通过 硬件 升级 ， 提 升 
速度 来 缓解 压力 问题 ， 而 向 外 扩展 则 是 通过 将 海量 数据 按照 一 定 的 规则 进行 划分 ， 将 原来 集中 存 
储 的 数据 分 散 到 不 同 的 物理 数据 库 服务 器 上 。Sharding 正 是 在 向 外 扩展 的 理念 指导 下 ， 为 传统 数 
据 库 提出 的 一 种 解决 扩展 性 的 方案 。Sharding 通过 县 加 相对 廉价 设备 的 方式 实现 存储 和 计算 能 力 
的 扩展 ， 其 主要 目的 是 为 突破 单 节点 数据 库 服务 器 的 输入 输出 能 力 限制 ， 提 高 快速 访问 能 力 ， 以 
及 提供 更 大 的 读 写 带宽 。 但 是 ， 在 互联 网 的 应 用 场景 下 ， 这 种 解决 扩展 性 的 方案 仍然 存在 着 一 定 
局 限 性 。 比 如 ， 数 据 存储 在 多 个 节点 ， 需 要 考虑 负载 均衡 的 问题 ， 这 就 要 求 互联 应 用 实现 复杂 的 
负载 自动 平衡 机 制 ， 引 入 较 高 代价 ， 数据 库 严格 的 范式 规定 ， 使 得 表示 成 关系 模型 的 数据 很 难 划 
分 到 不 同 的 shard 中 ; 同时 ， 还 存在 一 些 数据 可 靠 性 和 可 用 性 的 问题 。 


2.2.2 ”新 兴 数 据 存储 系统 


在 传统 关系 型 数据 库 已 不 能 满足 互联 网 应 用 需求 的 情况 下 ， 开 始 出 现 一 些 针 对 结构 化 、 半 结 
构 化 ， 甚 至 非 结构 化 数据 的 管理 系统 。 在 这 些 系统 中 ， 数 据 通常 采用 多 副本 的 方式 进行 存储 ， 以 
保障 系统 的 可 用 性 和 并 发 性 ;采用 较 弱 的 一 致 性 模型 〈 如 最 终 一 致 性 模型 ) ， 在 保证 低 延 时 的 用 
户 响 应 的 同时 , 维持 副本 之 间 的 一 致 状态 ; 并 且 这 些 系统 都 提供 良好 的 负载 平衡 策略 和 容错 手段 。 

按照 存储 管理 方式 划分 ， 这 些 新 兴 的 数据 存储 管理 系统 可 以 归 为 两 大 类 。 


1. 集中 式 数据 存储 管理 系统 


这 类 系统 采用 传统 的 服务 器 群 架构 。 整 个 系统 需要 一 个 主 控 节 点 维护 各 从 节点 的 元 信息 ， 是 
一 种 集中 控制 的 管理 手段 。 其 优势 在 于 ， 集 中 管理 的 方式 人 为 可 控 且 维护 方便 ， 在 处 理 数据 同步 
时 更 为 简单 。 其 劣势 在 于 ， 系 统 存在 单 点 故障 的 危险 。 这 类 系统 包括 谷歌 的 Bigtable 和 雅虎 的 
PNUTS。 

Bigtable 是 谷歌 开发 的 一 套 结构 化 存储 系统 。 数 据 以 多 维 顺序 表 的 方式 进行 存储 。 整 个 系统 
采用 传统 的 服务 器 群 形式 ， 由 一 个 主 控 服 务 器 和 多 个 子 表 服务 器 构成 ， 并 使 用 分 布 式 锁 服 务 
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Chubby 进行 容错 等 管理 。 

PNUTS 是 雅虎 内 部 使 用 的 , 用 于 跨 数据 中 心 进行 部 署 的 大 规模 并 行 数据 管理 系统 。 它 在 数据 
中 心 内 部 采用 与 Bigtable 类 似 的 集中 式 管 理 体系 。PNUTS 支持 以 顺序 表 和 哈 希 表 两 种 方式 进行 
结构 化 数据 的 组 织 存储 ， 并 通过 一 定 的 优化 手段 在 保证 用 户 低 延 时 访问 服务 的 同时 ， 提 高 数据 批 
量 载 入 的 性 能 。 


2. 非 集中 式 数据 存储 管理 系统 


在 这 类 系统 中 , 各 节点 无 主 从 之 分 , 各 节点 通过 相应 的 通信 机 制 相 互感 知 ， 自 我 管理 性 较 强 。 
其 优势 在 于 : 由 于 没有 主 控 节点 ， 因 而 避免 单 点 失效 带 来 的 危险 ， 不 需要 过 多 人 工 干预 。 其 劣势 
在 于 : 由 于 无 主 控 节 点 因而 一 些 元 数据 更 新 操作 的 实现 较为 复杂 ; 不 易 进 行人 工控 制 。 亚 马 逊 
(Amazon) 的 Dynamo 和 Facebook 的 Cassandra 即 采 用 这 种 方式 。 

Dynamo 是 一 个 基于 分 布 式 哈 希 的 去 中 心 化 大 规模 数据 管理 系统 。 在 Dynamo 中 ， 数 据 按照 
键 / 值 对 〈key-value) 进行 组 织 ， 主 要 面向 原始 数据 的 存储 。 这 种 架构 下 ， 系 统 中 每 个 节点 都 能 相 
互感 知 ， 自 我 管理 性 能 较 强 ,没有 单 点 失效 。Cassandra 是 Facebook 开发 的 一 套 采 用 对 等 网 络 计 
算 (Peer to Peer, P2P) 技术 实现 的 结构 化 数据 存储 系统 。 与 Dynamo 有 所 不 同 的 是 , Cassandra 采 
用 类 似 Bigtable 的 多 维 表 数据 模型 组 织 数据 。 





海量 数据 存储 的 关键 技术 分 析 


扩展 性 是 互联 网 应 用 需求 下 海量 数据 存储 的 首要 问题 。 构建 一 个 TB 级 甚至 PB 级 的 数据 存 
储 系统 ， 需 要 有 自 适应 的 数据 划分 方式 、 良 好 的 负载 均衡 策略 来 满足 数据 、 用 户 规模 的 不 断 增长 
需求 。 同 时 ， 在 保证 系统 可 靠 性 的 同时 ， 需 要 权衡 数据 一 致 性 与 数据 可 用 性 ， 来 满足 互联 网 应 用 
低 延 时 、 高 吞吐 率 的 要 求 。 在 这 一 节 中 ， 主 要 从 数据 划分 、 数 据 一 致 性 与 可 用 性 、 负 载 均衡 、 容 
错 机 制 4 个 主要 方面 来 讨论 构建 一 个 高 可 靠 、 可 扩展 的 海量 数据 存储 系统 的 关键 问题 和 技术 。 


2.3.1 数据 划分 


在 分 布 式 环境 下 ， 数 据 存储 需要 跨越 多 个 存储 单元 。 如 何 进行 数据 的 划分 是 影响 扩展 性 、 负 
载 平衡 以 及 系统 性 能 的 关键 问题 。 为 了 提供 低 延 时 的 系统 响应 ， 克 服 系统 性 能 的 瓶颈 ， 系 统 必须 
在 用 户 请 求 到 来 时 将 请 求 进行 合理 分 发 。 现 有 的 海量 数据 管理 系统 主要 采用 哈 希 映射 和 顺序 分 裂 
这 两 种 方式 。 在 互联 网 应 用 中 ,数据 通常 以 键 / 值 对 方式 进行 组 织 以 适应 数据 的 多 样 性 和 处 理 的 灵 
活性 。 哈 希 映射 是 根据 数据 记录 的 键 值 进行 哈 希 , 根据 哈 希 值 将 数据 记录 映射 到 相应 的 存储 单元 。 
但 是 这 种 数据 划分 方式 带 来 的 性 能 收益 依赖 于 哈 希 算法 的 优 劣 。 而 顺序 分 裂 则 是 一 种 渐进 式 的 数 
据 划 分 方式 。 数 据 按键 值 排序 写 入 数据 表 中 ， 数 据 表 在 其 大 小 达到 阔 值 后 进行 分 裂 ， 分 裂 后 的 数 
据 将 被 分 配 到 不 同 的 节点 上 去 继续 提供 服务 。 这 样 ， 新 流入 的 数据 根据 键 值 自 动 找 到 相应 的 分 片 
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插入 表 中 。 

Dynamo 和 Cassandra 都 采用 了 一 致 性 哈 希 的 方式 进行 数据 划分 。 这 种 方式 在 数据 流入 时 就 
将 数据 均匀 地 映射 到 相应 的 存储 单元 ， 从 而 最 大 限度 地 避免 系统 热点 的 产生 。 同 时 一 致 性 哈 希 算 
法 也 为 系统 带 来 了 良好 的 扩展 性 。 

而 Bigtable 则 使 用 顺序 分 裂 的 方式 进行 数据 划分 。 这 种 渐进 式 的 数据 划分 方式 ， 可 以 有 效 利 
用 系统 资源 ， 并 能 提供 很 好 的 扩展 性 。 但 是 某 个 键 值 范围 的 频繁 插入 可 能 产生 负载 热点 。 与 哈 希 
方式 不 同 的 是 ， 顺 序 分 裂 的 数据 与 存储 节点 并 不 存在 直接 映射 的 关系 ， 在 Bigtable 中 需要 有 一 个 
主 控 节点 来 集中 管理 这 种 分 裂 和 映射 行为 。 因 此 ， 整 个 系统 的 扩展 性 最 终 受 限 于 主 控 节点 的 管理 
能 力 。 

虽然 PNUTS 提供 了 顺序 表 和 哈 希 表 两 种 数据 的 组 织 形式 ， 但 是 其 哈 希 表 中 的 数据 按照 键 的 
哈 希 值 有 序 存放 。 就 是 说 ，PNUTS 采用 了 顺序 分 裂 的 方式 来 按照 键 或 者 键 哈 希 值 划分 顺序 表 或 
者 哈 希 表 中 的 数据 。 

虽然 这 些 系统 采用 不 同 的 数据 模型 〈 键 / 值 对 、 顺 序 表 、 哈 希 表 等 ) 来 进行 数据 的 组 织 ， 但 是 
它们 都 根据 这 些 数据 组 织 的 特性 实现 可 扩展 的 数据 划分 方式 。 根 据 应 用 数据 的 特性 ， 确 定 合理 的 
数据 划分 策略 以 达到 高 可 扩展 性 是 海量 数据 存储 系统 设计 的 首要 问题 。 


2.3.2 数据 一 致 性 与 可 用 性 


数据 可 用 性 是 分 布 式 环境 下 数据 存储 的 基石 ， 而 数据 一 致 性 模型 则 为 保证 数据 操作 的 正确 性 
做 出 了 限定 。 在 分 布 式 环境 下 ， 通 常 采用 副本 元 余 、 日 志 等 方式 来 解决 数据 的 可 用 性 问题 。 但 是 
副本 宛 余 存储 也 带 来 了 数据 一 致 性 的 问题 。 在 采用 副本 宛 余 方式 的 分 布 式 系统 中 ， 数 据 一致 性 与 
系统 性 能 是 一 对 不 可 调和 的 矛盾 ， 往 往 需 要 在 系统 的 性 能 (如 响应 时 间 等 ) 与 数据 的 严格 一 致 性 
之 间 进 行 折 中 。 在 低 延 时 用 户 响 应 的 互联 网 应 用 需求 下 ， 通 常 要 牺牲 数据 严格 的 一 致 性 来 调和 这 
种 矛盾 ， 即 允许 系统 通过 弱化 一 致 性 模型 来 保证 高 效 的 系统 响应 ， 同 时 通过 异步 复制 的 手段 来 保 
证 数据 的 可 用 性 。 

Dynamo、Bigtable 和 PNUTS 都 是 通过 副本 宛 余 的 方式 来 保证 数据 的 高 可 用 。 但 是 ， 其 具体 
实现 又 不 尽 相 同 。 由 于 Dynamo 采用 非 集中 的 管理 方式 ， 整 个 系统 中 无 主 从 节点 之 分 ， 因 此 是 在 
整个 哈 希 环 上 通过 gossip 机 制 进行 通信 来 完成 副本 的 异步 复制 。 而 采用 集中 管理 方式 的 Bigtable 
和 PNUTS 均 采 用 日 志 的 方式 保证 服务 节点 内 存 中 数据 的 可 用 性 。 不 同 的 是 ， 在 数据 存储 可 用 性 
方面 ，BigTable 依赖 于 底层 分 布 式 文件 系统 的 副本 机 制 ; 而 PNUTS 则 采用 基于 发 行 /订阅 
(pub/sub) 通信 机 制 的 主 从 式 异 步 复制 方式 来 完成 数据 的 元 余 存储 : 数据 首先 被 同步 到 主 副本 ， 
然后 通过 发 行 /订阅 机 制 异步 更 新 到 所 有 副本 。 

如 上 所 述 , 需要 跨 数据 中 心 部 署 的 Dynamo 和 PNUTS 都 采用 异步 复制 的 方式 进行 副本 更 新 ， 
牺牲 一 定 程度 的 数据 一 致 性 来 保证 系统 的 高 性 能 。 可 见 ， 数 据 一 致 性 、 可 用 性 与 系统 性 能 的 权衡 
考虑 是 一 个 与 应 用 特性 和 部 署 方式 紧密 相关 的 问题 。 
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2.3.3 ”负载 均衡 


负载 均衡 是 分 布 式 环境 下 进行 高 效 数据 管理 的 关键 问题 。 它 主要 包括 数据 的 均衡 和 访问 压力 
的 均衡 这 两 个 方面 。 在 分 布 式 环境 中 ， 数 据 通过 一 定 的 划分 策略 〈 哈 希 或 者 顺序 分 裂 等 ) 进行 划 
分 并 存储 在 不 同 的 节点 上 ， 用 户 的 访问 请 求 也 将 由 不 同 的 节点 处 理 。 由 于 用 户 访问 请 求 分 布 规律 
的 不 可 预测 性 导致 最 终 数据 存储 分 布 的 不 均衡 ， 以 及 节点 访问 压力 的 不 均衡 。 在 数据 分 布 、 访 问 
负载 不 均衡 的 情况 下 ， 频 繁 的 并 发 访问 和 持续 的 数据 加 载 压力 将 会 影响 整个 系统 的 性 能 。 为 了 保 
证 数据 加 载 的 高 吞吐 率 、 系 统 响应 的 低 延 时 以 及 系统 的 稳定 性 ， 海 量 存储 系统 需要 有 一 套 良好 的 
均衡 机 制 来 解决 上 述 问题 。 

Dynamo 采用 了 虚拟 节点 技术 ， 通 过 虚拟 化 的 手段 将 节点 的 服务 能 力 单元 化 ， 将 访问 压力 较 
大 的 虚拟 节点 映射 到 服务 能 力 较 强 的 物理 节点 ， 达 到 访问 压力 的 均衡 。 访 问 压 力 的 均衡 同时 伴随 
着 数据 的 均衡 。 为 了 最 小 化 数据 均衡 过 程 中 数据 迁移 的 开销 ，Dynamo 同样 采用 虚拟 化 技术 ， 量 
化 节点 的 存储 能 力 ， 将 虚拟 后 的 存储 节点 相对 均匀 地 分 散 到 集群 哈 希 环 上 ， 避 免 数 据 均衡 过 程 中 
全 环 的 数据 移动 。 在 非 集中 式 系 统 中 ， 这些 均 衡 操 作 可 以 由 任 一 节点 发 起 , 通过 gossip 通信 机 制 
与 集群 中 的 其 他 节点 协调 完成 。 

与 Dynamo 这 种 非 集中 式 管理 不 同 的 是 ，BigTable 通过 主 控 节 点 (master) 来 监控 各 个 子 表 服务 
器 (tablet server) 上 的 访问 负载 状态 ， 利 用 主 控 节 点 调度 管理 子 表 的 分 裂 和 迁移 ， 将 访问 压力 均匀 地 
分 散 到 各 个 子 表 服务 器 上 。 由 于 BigTable 采用 分 布 式 文件 系统 作为 数据 的 底层 存储 ， 因 而 访问 压力 
均衡 过 程 中 并 不 涉及 存储 数据 的 迁移 操作 ， 以 一 种 巧妙 的 方式 避免 了 数据 均衡 的 问题 。 在 集中 式 管理 
系统 中 ，PNUTS 也 采用 类 似 的 方式 进行 访问 压力 的 均衡 。 不 同 的 是 ， 采 用 本 地 文件 系统 或 者 本 地 数 
据 库 系统 的 PNUTS 在 进行 子 表 (tablet) 的 分 裂 和 迁移 时 ， 需 要 进行 存储 数据 迁移 。 

由 此 可 见 ， 有 效 的 数据 划分 方式 为 系统 扩展 性 提供 了 一 个 基础 ， 但 是 同时 也 给 系统 带 来 了 负 
载 均衡 的 问题 。 通 过 虚拟 化 节点 或 者 表 分 裂 等 方式 改变 数据 分 布 格局 ， 均 衡 访问 负载 的 同时 ， 尽 
可 能 减少 存储 数据 迁移 量 或 者 避免 数据 迁移 ， 是 海量 存储 系统 的 一 个 挑战 。 


2.3.4 ”容错 机 制 


容错 是 分 布 式 系统 健壮 性 的 标志 。 节 点 的 失效 侦 测 以 及 失效 恢复 已 经 成 为 保证 系统 的 可 用 性 、 
可 靠 性 的 关键 问题 。 


1. 失效 侦 测 


在 非 集中 式 系统 中 , 各 节点 之 间 定 期 进行 交互 以 了 解 节 点 的 活动 状态 , 从 而 侦 测 失效 的 存在 ， 
如 Dynamo、Cassandra。 而 在 集中 式 系统 中 ， 整 个 系统 需要 有 专门 的 部 件 〈 节 点 ) 来 维护 整个 分 
布 式 系统 中 节点 的 状态 信息 ， 并 通过 “心跳 ”机 制 完成 失效 节点 的 侦 测 。 如 Bigtable 通过 分 布 式 
锁 服务 chubby 来 跟踪 主 控 节 点 和 子 表 节 点 的 服务 状态 ， 完 成 节点 的 失效 侦 测 ; PNUTS 则 利用 子 
表 控制 器 〈tablet controller) 部件 维护 的 活动 节点 路 由 信息 来 判断 节点 失效 的 存在 。 
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2. 失效 恢复 


在 系统 侦 测 到 失效 节点 的 存在 后 ， 需 要 一 定 的 恢复 策略 来 完成 对 失效 节点 的 恢复 ， 保 证 系统 
的 可 用 性 和 可 靠 性 。 在 分 布 式 系统 中 , 节点 的 失效 分 为 临时 失效 (如 网 络 分 区 等 ) 和 永久 失效 (如 
节点 死机 、 磁 盘 损坏 等 ) 两 种 情况 。 在 副本 元 余 存储 的 分 布 式 系统 中 ， 失 效 通常 会 造成 多 副本 之 
间 的 数据 不 一 致 ， 需 要 对 失效 节点 的 数据 进行 同步 来 完成 失效 的 恢复 。 同 时 ， 永 久 失效 通常 会 
成 失效 节点 内 存 中 数据 的 丢失 ， 日 志 重 做 通常 是 解决 这 类 问题 的 一 种 办 法 。 当 然 ， 有 具体 的 失效 恢 
复 策 略 在 不 同 的 系统 中 又 各 有 特色 。 

以 BigTable 为 例 。 临 时 失效 和 永久 失效 在 BigTable 中 并 不 做 区 分 。BigTable 依靠 主 控 节 点 
通过 “心跳 ”机 制 来 侦 测 失效 的 存在 ， 即 在 规定 时 间 内 主 控 节 点 无 法 通过 “心跳 ”获得 从 节点 响 
应 就 认为 该 从 节点 失效 。 即 使 临时 失效 的 节点 可 能 再 次 与 主 控 节点 建立 连接 ， 这 些 节点 也 将 被 主 
控 节 点 停止 ， 因 为 这 些 节点 上 的 服务 已 经 被 重新 分 配 到 其 他 节点 上 。 服 务 的 迁移 并 不 涉及 存储 数 
据 的 移动 ， 不 会 引入 额外 的 系统 开销 ， 因 而 也 就 无 需 区 分 各 种 失效 状态 。 这 种 依赖 于 底层 分 布 式 
文件 系统 的 共享 存储 方式 ， 简 化 了 系统 的 失效 恢复 。 

在 集中 式 系统 中 ， 主 从 节点 的 功能 差异 使 得 主 节点 各 种 失效 恢复 的 方式 不 尽 相 同 。 由 于 主 节 
点 维护 系统 元 信息 ， 因 此 其 失效 将 是 灾难 性 的 。 在 集中 式 系统 中 ， 通 常 采用 备份 节点 〈 双 机 、 多 
机 备份 ) 来 防止 主 节点 失效 的 发 生 。 然 而 Bigtable 则 通过 chubby 来 管理 集群 节点 的 状态 信息 ， 
利用 子 表 服 务 器 来 管理 整个 系统 的 存储 元 信息 ， 弱 化 主 节点 的 管理 功能 ， 减 小 主 节 点 失效 导致 灾 
难 的 可 能 性 ， 同 时 也 降低 了 主 节 点 恢复 的 复杂 性 。 

而 在 以 Dynamo 为 代表 的 非 集中 数据 存储 系统 中 , 由 于 哈 希 方式 的 数据 划分 策略 ,使 得 系统 
中 各 个 节点 既 作 为 存储 节点 也 作为 服务 节点 ， 服 务 迁 移 的 过 程 伴随 着 大 量 的 数据 迁移 ， 因 而 系统 
必须 认真 应 对 各 种 失效 状态 , 以 使 失效 恢复 过 程 中 尽量 避免 大 规模 存储 数据 迁移 带 来 的 系统 开销 。 
基于 上 述 原因 ， 在 Dynamo 中 临时 失效 和 永久 失效 被 区 别 对 待 。 其 主要 处 理 方式 参见 案例 分 析 。 

从 上 面 两 个 方面 的 讨论 ， 可 以 发 现 失效 侦 测 技术 的 选择 是 一 个 与 集群 管理 方式 〈 集 中 式 、 非 
集中 式 ) 密切 相关 的 问题 ， 这 种 选择 通常 相对 固定 。 而 失效 恢复 策略 的 实现 则 是 因应 用 而 异 。 系 
统 的 设计 者 可 以 根据 应 用 特性 ， 权 衡 数 据 一致 性 、 可 用 性 以 及 系统 性 能 等 多 方面 因素 选择 较 优 的 
失效 恢复 策略 。 





2.3.5 海量 数据 存储 的 硬件 支持 


海量 数据 存储 的 实现 离 不 开 存储 技术 的 不 断 发 展 ， 作 为 先进 存储 技术 代表 的 RAID、NAS、 
SAN 和 卫 技术 均 应 用 于 海量 数据 的 存储 中 。 


1. 磁盘 阵列 ( RAID ) 


RAID (Redundant Array of Independent Disks) 是 元 余 的 独立 磁盘 阵列 的 英文 缩写 。1988 年 
由 美国 加 州 大 学 Berkeley 分 校 的 David Patterson 等 人 提出 。 宛 余 是 为 了 补救 错失 、 保 证 可 靠 性 而 
采取 的 一 种 方法 ; 独立 是 指 阵列 不 在 主机 内 而 自 成 一 个 系统 。 一 般 将 RAID 分 为 不 同 级 别 ， 最 党 
用 的 是 RAID0~PAID6。 
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(1) RAIDO 

RAID0 是 最 早出 现 的 RAID 模式 ， 即 Data Stripping 数据 分 条 技术 ， 如 图 2.1 所 示 。RAID 0 
是 组 建 磁盘 阵列 中 最 简单 的 一 种 形式 ， 只 需要 两 块 以 上 的 硬盘 即 可 ， 成 本 低 ， 可 以 提高 整个 磁盘 
的 性 能 和 吞吐 量 。RAID0 没有 提供 元 余 或 错误 修复 能 力 ， 但 实现 成 本 是 最 低 的 。 





2.1 RAID0 组 织 结构 图 


RAID0 最 简单 的 实现 方式 就 是 把 N 块 同样 的 硬盘 用 硬件 的 形式 通过 智能 磁盘 控制 器 或 用 操作 系 
统 中 的 磁盘 驱动 程序 以 软件 的 方式 串联 在 一 起 创建 一 个 大 的 卷 集 。 在 使 用 中 电脑 数据 依次 写 入 到 各 块 
硬盘 中 ， 它 的 最 大 优点 就 是 可 以 整 倍 地 提高 硬盘 的 容量 。 如 使 用 了 三 块 80GB 的 硬盘 组 建成 RAIDO 
模式 ， 那 么 磁盘 容量 就 会 是 240GB。 其 速度 方面 ， 各 个 硬盘 的 速度 完全 相同 。 最 大 的 缺点 在 于 任何 一 
块 硬盘 出 现 故 障 ， 整 个 系统 将 会 受到 破坏 ， 可 靠 性 仅 为 单独 一 块 硬盘 的 1/N。 

虽然 RAID0 可 以 提供 更 多 的 空间 和 更 好 的 性 能 , 但 是 整个 系统 是 非常 不 可 靠 的, 如 果 出 现 故 
障 ， 无 法 进行 任何 补救 。 所 以 ，RAID0 一 般 只 是 在 那些 对 数据 安全 性 要 求 不 高 的 情况 下 才 被 人 们 
使 用 。 


(2) RAID1 

RAID1 称 为 磁盘 镜像 ， 如 图 2.2 所 示 ， 原 理 是 把 一 个 磁盘 的 数据 镜像 到 另 一 个 磁盘 上 ， 也 就 
是 说 数据 在 写 入 一 块 磁盘 的 同时 ， 会 在 另 一 块 闲置 的 磁盘 上 生成 镜像 文件 ， 在 不 影响 性 能 的 情况 
下 最 大 限度 地 保证 系统 的 可 靠 性 和 可 修复 性 ， 只 要 系统 中 任何 一 对 镜像 盘 中 至 少 有 一 块 磁盘 可 以 
使 用 ， 甚 至 可 以 在 一 半数 量 的 硬盘 出 现 问题 时 系统 都 可 以 正常 运行 ， 当 一 块 硬盘 失效 时 ， 系 统 会 
忽略 该 硬盘 ， 转 而 使 用 剩余 的 镜像 盘 读 写 数据 ， 有 具备 很 好 的 磁盘 元 余 能 力 。 虽 然 这 样 对 数据 来 讲 
绝对 安全 ， 但 是 成 本 也 会 明显 增加 ， 磁 盘 利 用 率 为 50%， 以 4 块 80GB 容量 的 硬盘 来 讲 ， 可 利用 
的 磁盘 空间 仅 为 160GB。 另 外 ,出现 硬盘 故障 的 RAID 系统 不 再 可 靠 , 应 当 及 时 更 换 损 坏 的 硬盘 ， 
否则 剩余 的 镜像 盘 也 出 现 问题 ， 整 个 系统 就 会 朋 溃 。 更 换 新 盘 后 原 有 数据 会 需要 很 长 时 间 同 步 镜 
像 ， 外 界 对 数据 的 访问 不 会 受到 影响 ， 只 是 这 时 整个 系统 的 性 能 有 所 下 降 。 因 此 ，RAID1 多 用 在 
保存 关键 性 的 重要 数据 的 场合 。 
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RAID 1 














图 2.2 RAID1 组 织 结构 图 


RAID1 主要 是 通过 二 次 读 写实 现 磁盘 镜像 ， 所 以 磁盘 控制 器 的 负载 也 相当 大 ， 尤 其 是 在 需要 
频繁 写 入 数据 的 环境 中 。 为 了 避免 出 现 性 能 瓶颈 ， 使 用 多 个 磁盘 控制 器 就 显得 很 有 必要 。 


(3) RAID2 

从 概念 上 讲 ，RAID2 同 RAID3 类 似 , 两 者 都 是 将 数据 条 块 化 分 布 于 不 同 的 硬盘 上 ， 条 块 单 
位 为 位 或 字 节 。 然 而 RAID2 使 用 一 定 的 编码 技术 来 提供 错误 检查 及 恢复 。 这 种 编码 技术 需要 多 
个 磁盘 存放 检查 及 恢复 信息 ， 使 得 RAID2 技术 实施 更 复杂 。 因 此 , 在 商业 环境 中 很 少 使 用 。 由 于 
海 明 码 的 特点 ， 它 可 以 在 数据 发 生 错 误 的 情况 下 将 错误 校正 ， 以 保证 输出 的 正确 。 它 的 数据 传送 
速率 相当 高 ， 如 果 希 望 达到 比较 理想 的 速度 ， 则 最 好 提高 保存 校 验 码 ECC 码 的 硬盘 ， 对 于 控制 器 
的 设计 来 说 ， 它 又 比 RAID3、RAID4 或 RAID5 要 简单 。 没 有 免费 的 午餐 ， 这 里 也 一 样 ， 要 利用 
海 明 码 ， 必 须要 付出 数据 元 余 的 代价 。 输 出 数据 的 速率 与 驱动 器 组 中 速度 最 慢 的 相等 。 

(4) RAID3: 带 奇 偶 校 验 码 的 并 行 传送 

这 种 校 验 码 与 RAID2 不 同 ， 只 能 查 错 不 能 纠 错 。 它 访问 数据 时 一 次 处 理 一 个 带 区 ， 这 样 可 以 提 
高 读 取 和 写 入 速度 。 校 验 码 在 写 入 数据 时 产生 并 保存 在 另 一 个 磁盘 上 。 需 要 实现 时 用 户 必 须要 有 三 个 
以 上 的 驱动 器 ， 写 入 速率 与 读 出 速率 都 很 高 ， 因 为 校 验 位 比较 少 ， 因 此 计算 时 间 相对 而 言 比较 少 。 用 
软件 实现 RAID 控制 将 是 十 分 困难 的 ， 控 制 器 的 实现 也 不 是 很 容易 。 它 主要 用 于 图 形 (包括 动画 ) 等 
要 求知 吐 率 比较 高 的 场合 。 不 同 于 RAID 2，RAID 3 使 用 单 块 磁盘 存放 奇偶 校 验 信息 。 如 果 一 块 磁盘 
失效 ， 奇 偶 盘 及 其 他 数据 盘 可 以 重新 产生 数据 。 如 果 奇 偶 盘 失效 ， 则 不 影响 数据 使 用 。RAID 3 对 于 
大 量 的 连续 数据 可 提供 很 好 的 传输 率 ， 但 对 于 随机 数据 ， 奇 偶 盘 会 成 为 写 操作 的 瓶颈 。 


(5) RAID4: 带 奇偶 校 验 码 的 独立 磁盘 结构 

RAID4 和 RAID3 很 像 ， 不 同 的 是 ， 它 对 数据 的 访问 是 按 数 据 块 进行 的 ， 也 就 是 按 磁盘 进行 
的 ， 每 次 是 一 个 盘 。 在 图 上 可 以 这 么 看 ，RAID3 是 一 次 一 横 条 ， 而 RAID4 是 一 次 一 竖 条 。 它 的 
特点 和 RAID3 也 挺 像 ， 不 过 在 失败 恢复 时 ， 它 的 难度 可 要 比 RAID3 大 得 多 了 ， 控 制 器 的 设计 难 
度 也 要 大 许多 ， 而 且 访 问 数据 的 效率 不 怎么 好 。 

RAID 技术 主要 包含 RAID0~~RAID50 等 数 个 规范 ， 它 们 的 侧重 点 各 不 相同 。 这 里 不 再 一 一 
介绍 。RAID 通过 在 多 个 磁盘 上 同时 存储 和 读 取 数据 来 大 幅 提高 存储 系统 的 数据 吞吐 量 
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(Throughput)。 在 RAID 中 ， 可 以 让 很 多 磁盘 驱动 器 同时 传输 数据 ， 而 这 些 磁盘 驱动 器 在 逻辑 上 
又 是 一 个 磁盘 驱动 器 , 所 以 使 用 RAID 可 以 达到 单个 磁盘 驱动 器 几 倍 、 几 十 倍 甚至 上 百倍 的 速率 。 
这 也 是 RAID 最 初 想 要 解决 的 问题 。 因为 当时 CPU 的 速度 增长 很 快 , 而 磁盘 驱动 器 的 数据 传输 速 
率 无 法 大 幅 提高 ， 所 以 需要 有 一 种 方案 解决 二 者 之 间 的 矛盾 。RAID 最 后 成 功 了 。 


RAID 技术 通过 数据 校 验 提供 容错 功能 。 普 通 磁盘 驱动 器 无 法 提供 容错 功能 ， 如 果 不 包 括 写 
在 磁盘 上 的 CRC (循环 元 余 校 验 ) 码 的 话 。RAID 容错 是 建立 在 每 个 磁盘 驱动 器 的 硬件 容错 功能 
之 上 的 ， 所 以 它 提供 更 高 的 安全 性 。 在 很 多 RAID 模式 中 都 有 较为 完备 的 相互 校 验 /恢复 的 措施 ， 
甚至 是 直接 相互 的 镜像 备份 ， 从 而 大 大 提高 了 RAID 系统 的 容错 度 ， 提 高 了 系统 的 稳定 元 余 性 。 


2. 存储 区 域 网 ( SAN ) 


存储 区 域 网 络 SAN) 是 通过 专用 高 速 网 将 一 个 或 多 个 网 络 存储 设备 和 服务 器 连接 起 来 的 专 
用 存储 系统 ， 未 来 的 信息 存储 将 以 SAN 存储 方式 为 主 。SAN 在 最 基本 的 层次 上 定义 为 互 连 存储 
设备 和 服务 器 的 专用 光纤 通道 网 络 ， 它 在 这 些 设备 之 间 提 供 端 到 端的 通信 ， 并 允许 多 台 服务 器 独 
立地 访问 同一 个 存储 设备 。 与 局 域 网 (LAN) 非常 类 似 ，SAN 提高 了 计算 机 存储 资源 的 可 扩展 性 
和 可 靠 性 , 使 实施 的 成 本 更 低 、 管 理 更 轻松 与 存储 子 系统 直接 连接 服务 器 ( 称 为 直 连 存储 或 DAS) 
不 同 ， 专 用 存储 网 络 介 于 服务 器 与 存储 子 系统 之 间 ， 如 图 2.3 所 示 。 
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图 23 SAN 存储 架构 图 


SAN 通过 一 个 单独 的 网 络 把 存储 设备 和 服务 器 群 相连 。 将 数据 存储 管理 集中 在 相对 独立 的 存储 
区 域 网 内 ， 并 提供 内 部 任意 节点 之 间 的 多 路 可 选择 数据 交换 。 当 有 海量 数据 的 存 取 需 求 时 ， 数 据 通过 
SAN 在 相关 服务 器 和 后 台 存 储 设备 之 间 高 速 传输 。SAN 可 在 多 种 存储 部 件 之 间 以 及 存储 部 件 与 交换 
机 之 间 进 行 通信 ， 将 网 络 和 设备 的 通信 协议 与 传输 介质 隔离 开 ， 使 系统 在 构建 成 本 和 复杂 程度 上 大 大 
降低 ， 提 高 了 网 络 利用 率 。 另 外 ，SAN 中 容量 扩展 、 数 据 迁 移 、 远 程 容 灾 数 据 备份 都 比较 方便 , SAN 
技术 的 存储 设备 性 能 高 ， 提 高 了 数据 的 可 靠 性 和 安全 性 ， 但 设备 的 互 操作 性 较 差 , 构建 、 管 理 和 维护 
成 本 高 ， 只 能 提供 存储 空间 共享 而 不 能 提供 异 构 环境 下 的 文件 共享 。 


3. 网 络 附加 存储 ( NAS ) 
NAS (Network Attached Storage， 网 络 附加 存储 ) 是 一 种 将 分 布 、 独 立 的 数据 整合 为 大 型 、 
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集中 化 管理 的 数据 中 心 ， 以 便于 对 不 同 主机 和 应 用 服务 器 进行 访问 的 技术 。 


从 结构 上 讲 ，NAS 是 功能 单一 的 精简 型 电脑 ， 因 此 在 架构 上 不 像 个 人 电脑 那么 复杂 ， 在 外 观 
上 就 像 家 电 产 品 ， 只 需 电源 与 简单 的 控制 钮 ， 如 图 2.4 所 示 。 


NAS 架 构 





















局 域 网 








图 2.4 NAS 结构 图 


在 以 往 ，NAS 被 视 作 网 络 上 一 种 附加 的 存储 设备 ，NAS 发 展 到 现在 ， 已 经 不 单单 是 作为 一 种 存 
储 设备 使 用 ， 更 多 的 是 作为 数据 备份 和 恢复 的 设备 。 这 是 由 于 NAS 可 以 实现 数据 自动 备份 和 恢复 ， 
而 且 由 于 NAS 所 使 用 的 是 嵌入 式 操作 系统 ， 有 着 很 高 的 安全 性 ， 所 以 它 的 强项 并 不 是 所 谓 文件 共享 ! 
真正 适合 文件 共享 的 是 SAN 而 不 是 NAS， 因 为 SAN 是 基于 块 (Block) 级 数据 传输 为 目的 的 设备 ， 
它 的 性 能 比 NAS 高 N 倍 ， 但 价格 也 高 了 N 倍 ， 当 然 ， 用 户 同样 可 以 使 用 NAS 作为 存储 设备 。NAS 
真正 面向 的 用 户 群 是 那些 对 历史 数据 极度 依赖 ， 一 旦 丢失 就 会 带 来 灾难 性 后 果 的 用 户 ， 如 财务 数据 、 
资产 数据 、 客 户 资料 等 ， 特 别 是 IT 资产 投入 预算 相对 较 少 的 中 小 企业 和 用 户 。 

NAS 备份 存在 以 下 优势 : 


(1) 工业 级 标准 的 部 件 及 制作 工艺 ,让 它们 与 其 他 存储 设备 区 别 开 ， 这 些 在 某 种 程度 上 可 以 
体现 在 使 用 当中 的 稳定 性 、 可 靠 性 和 安全 性 等 方面 

(2) 作为 以 数据 存储 、 备 份 为 专业 的 存储 设备 ， 采 取 精 准 的 磁 轨 备份 技术 结合 增 量 化 、 差 异 
化 体现 了 它们 数据 备份 的 有 效 性 ， 数 据 还 原 的 可 靠 性 ， 部 分 网 络 附加 存储 (NAS》 产 品 内 嵌 的 高 
度 智 能 化 、 自 动 化 的 专业 数据 备份 软件 高 效 地 减少 了 数据 备份 对 人 的 依赖 ; 

(3) 精简 化 的 操作 平台 、 正 式 的 访问 、 操 作 模式 在 有 效 防范 病毒 、 黑 客 的 同时 ， 大 大 提升 
了 产品 的 易 用 性 ; 

(4) 账号 式 的 管理 模式 简化 了 企业 或 个 人 对 数据 管理 工作 , 企业 通过 账号 式 的 管理 可 以 根据 
企业 内 部 不 同 角色 的 人 员 设 置 不 同 的 数据 存储 、 备 份 区 域 及 操作 权限 , 有 效 防 患 内 部 数据 的 混乱 、 
泄密 等 状况 的 发 生 ; 

(5) 磁盘 阵列 柜 的 特性 在 这 些 设备 中 得 到 了 传承 , 通过 组 RAID 的 形式 结合 热 插 拔 更 换 磁 盘 
的 特性 ， 同 时 能 够 自动 恢复 设备 内 部 数据 使 它 的 维护 成 本 大 大 降低 ; 

(6) 没有 地 域 限制 、 支 持 远 程 实时 访问 、 备 份 、 操 作 等 特性 ， 让 它 的 部 署 更 加 容易 ， 同 时 这 
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些 特性 在 构建 数据 容 灾 系统 中 能 够 得 到 充分 的 体现 ; 

(7) 良好 的 异 构 平台 兼容 性 ， 对 各 种 操作 平台 如 Windows、Linnux、UNIX、Mac 等 各 平台 
间 良 好 的 兼容 性 ， 让 它们 可 以 轻松 实现 对 各 种 基于 上 述 操作 平台 的 设备 提供 一 机 同时 为 多 种 平台 
进行 数据 备份 的 功能 ， 在 确保 各 项 IT 设备 投入 的 有 效 性 的 同时 避免 了 企业 对 IT 设备 重复 投资 造 
成 资源 的 浪费 的 问题 出 现 。 


从 本 质 上 讲 ，NAS 是 存储 备份 设备 ， 不 是 服务 器 。NAS 不 是 简装 版 的 文件 服务 器 ， 它 具有 
某 些 服务 器 没有 的 功能 特性 ， 例 如 增 量 备 份 、 差 异 备 份 、 磁 轨 备 份 等 技术 。 服 务 器 的 作用 是 进行 
业务 处 理 ， 存 储 设备 (NAS) 的 作用 是 进行 数据 存储 和 备份 ， 在 一 个 完整 的 应 用 环境 中 应 将 两 种 
设备 有 机 地 结合 起 来 使 用 ， 服 务 器 重点 在 前 端 ， 存 储备 份 设备 (NAS ) 的 重点 在 后 端 。 


4.1P 存储 


随 着 网 络 存储 技术 的 飞速 发 展 ， 各 种 存储 设备 和 技术 正 趋 于 融合 。 总 有 一 天 ， 现 在 的 光纤 和 
SCSI 磁盘 阵列 、NAS 文件 服务 器 、 磁 带 库 等 设备 都 可 以 运行 在 一 个 统一 标准 的 架构 中 。 

卫 存 储 〈Storage overIP，SoIP) 在 IP 网 络 中 传输 块 级 数据 ， 使 得 服务 器 可 以 通过 IP 网 络 连 
接 SCSI 设备 ， 并 且 像 使 用 本 地 的 设备 一 样 ， 无 需 关心 设备 的 地 址 或 位 置 。 而 网 络 连 接 则 是 以 卫 
和 以 太 网 为 骨干 ， 这 令 人 联想 起 今天 耳熟能详 的 存储 域 网 (SAN) 结构 。 只 是 以 廉价 而 成 熟 的 人 Pp 
和 以 太 网 技术 ， 替 代 了 光纤 通道 技术 。 

由 于 既 有 的 成 熟 性 和 开放 性 ，IP 存储 技术 ， 使 企业 在 制定 和 实现 “安全 数据 存储 ”的 策略 和 
方案 时 ， 有 了 更 多 的 选择 空间 。 例 如 远程 的 数据 备份 、 数 据 镜像 和 服务 器 集群 等 领域 ， 了 存储 的 
介入 都 可 以 大 大 丰富 其 内 容 。 同 时 ， 卫 存储 也 消除 了 企业 IT 部 门 在 设计 传统 SAN 方案 时 ， 必 须 
面 对 的 产品 兼容 性 和 连接 性 方面 的 问题 。 最 重要 的 是 ， 基 于 IP 存储 技术 的 新 型 SAN， 兼 具 了 传 
统 SAN 的 高 性 能 和 传统 NAS 的 数据 共享 优势 ,为 新 的 数据 应 用 方式 提供 了 更 加 先进 的 结构 平台 。 

在 过 去 的 一 年 中 , 存储 和 网 络 厂商 的 注意 力主 要 集中 在 IP 存储 技术 的 两 个 方面 , 即 存储 隧道 

(Storage tunneling) 和 本 地 IP 存储 (Native IP-based Storage)。 下 面 是 这 两 个 方面 的 一 些 粗略 概 
况 。 顾 名 思 义 , 存储 隧道 技术 是 将 IP 协议 作为 连接 两 个 异地 光纤 SAN 的 隧道 , 用 以 解决 两 个 SAN 
环境 的 互联 问题 。 光 纤 通 道 协议 帧 被 包 庄 在 IP 数据 包 中 传输 。 数 据 包 被 传输 到 远 端 SAN 后 ， 由 
专用 设备 解 包 ， 还 原 成 光纤 通道 协议 帧 。 

由 于 这 种 技术 提供 的 是 两 个 SAN 之 间 点 到 点 的 连接 通信 ， 从 功能 上 讲 ， 这 是 一 种 类 似 于 光 
纤 的 专用 连接 技术 。 因 此 ,这 种 技术 也 被 称 为 黑光 纤 连 接 ( Dark fiber optic links)。 由 于 其 专用 性 ， 
使 得 这 种 技术 实现 起 来 成 本 较 高 ， 缺 乏 通用 性 ， 而 且 较 大 的 延迟 也 对 性 能 造成 一 定 影 响 。 其 最 大 
的 优势 在 于 ， 可 以 利用 现 有 的 城 域 网 和 广域网 。 这 一 优势 ， 正 好 为 炒作 得 沸沸扬扬 ， 但 至 今 无 法 
充分 利用 的 宽带 资源 ， 提 供用 武之 地 。 另 一 方面 ， 虽 然 IP 网 络 技术 非常 普及 ， 其 管理 和 控制 机 
制 也 相对 完善 但是， 利用 人 P 网 络 传输 的 存储 隧道 技术 ， 却 无 法 充分 利用 这 些 优势 。 其 原因 主要 
在 于 ， 嵌 入 IP 数据 包 中 的 光纤 通道 协议 帧 。IP 网 络 智 能 管理 工具 不 能 识别 这 些 数 据 ， 这 使 得 一 
些 很 好 的 管理 控制 机 制 无 法 应 用 于 这 种 技术 ， 如 目录 服务 、 流 量 监控 、QoS 等 。 因 此 ,企业 IT 
部 门 的 系统 维护 人 员 , 几乎 不 可 能 对 包含 存储 隧道 的 网 络 环境 , 进行 单一 界面 的 统一 集中 化 管理 。 
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目前 的 存储 隧道 产品 还 有 待 完善 ， 与 光纤 通道 SAN 相 比 ， 只 能 提供 很 小 的 数据 传输 带宽 。 
例如 ,一 个 在 光纤 SAN 上 , 用 两 到 三 个 小 时 可 以 完成 的 传输 过 程 ,在 两 个 光纤 SAN 之 间 以 OC-3 
标准 传输 大 约 需要 14 个 小 时 。 这 是 目前 存储 隧道 产品 比较 典型 的 传输 速度 。 当 然 , 这 样 的 性 能 表 
现 ， 不 会 限制 到 该 技术 在 一 些 非 同步 功能 中 的 应 用 。 如 远程 的 数据 备份 ， 就 不 一 定 需要 很 高 的 数 
据 传输 带宽 。 

总 之 ， 存储 隧道 技术 , 借用 了 一 些 IP 网 络 的 成 熟 性 优势 ,但 是 并 没有 摆脱 复杂 而 昂贵 的 光纤 
通道 产品 。 

本 地 IP 存储 技术 是 将 现 有 的 存储 协议 ， 例 如 SCSI 和 光纤 通道 ， 直 接 集成 在 卫 协议 中 ,以 使 
存储 和 网 络 可 以 无 颖 地 融合 。 当 然 ， 这 并 不 是 指 ， 可 以 在 企业 IT 系统 中 ， 把 存储 网 络 和 传统 的 
LAN， 物 理 上 合并 成 一 个 网 络 。 而 是 指 在 传统 的 SAN 结构 中 ， 以 IP 协议 替代 光纤 通道 协议 ， 来 
构建 结构 上 与 LAN 隔离 ， 而 技术 上 与 LAN 一 致 的 新 型 SAN 系统 IP-SAN。 

这 种 IP-SAN 中 ， 用 户 可 以 在 保证 性 能 的 同时 ， 有 效 地 降低 成 本 ， 而 且 以 往 用 户 在 P-LAN 
上 获得 的 维护 经 验 、 技 巧 都 可 以 直接 应 用 在 IP-SAN 上 。 俯 拾 皆 是 的 IP 网 络 工具 ， 使 IP-SAN 的 
网 络 维护 轻松 而 方便 。 同 样 ， 维 护 人 员 的 培训 工作 ， 也 不 会 像 光 纤 技术 培训 那样 庞杂 而 元 长 。 

设想 一 下 ， 一 个 大 型 企业 的 IT 部 门 引入 了 一 项 新 技术 ， 并 以 此 构建 了 底层 的 大 型 存储 系统 。 却 
不 需要 调整 现 有 的 网 络 和 主机 ， 不 需要 改变 应 用 软件 ， 不 需要 增加 管理 工具 ， 甚 至 不 需要 过 多 的 技术 
赔 训 。 现 有 的 网 络 管理 工具 和 人 员 ， 完 全 可 以 应 付 这 一 切 。 这 是 一 个 多 么 诱 人 的 系统 升级 方案 。 

与 存储 隧道 技术 相 比 ， 本 地 IP 存储 技术 具有 显著 的 优势 。 首 先 ， 一 体 化 的 管理 界面 ， 使 得 
IP-SAN 可 以 和 IP 网 络 完全 整合 。 其 次 ， 用 户 在 这 一 技术 中 ， 面 对 的 是 非常 熟悉 的 技术 内 容 : IP 
协议 和 以 太 网 。 而 且 ， 各 种 卫 通用 设备 ， 保 证 了 用 户 可 以 具有 非常 广泛 的 选择 空间 。 事 实 上 ， 由 
于 本 地 耳 存储 技术 的 设计 目标 ,就 是 充分 利用 现 有 设备 , 传统 的 SCSI 存储 设备 和 光纤 存储 设备 ， 
都 可 以 在 IP-SAN 中 利用 起 来 。 

本 地 人 Pp 存储 技术 ， 更 进一步 地 模糊 了 本 地 存储 和 远程 存储 的 界限 。 在 IP-SAN 中 ， 只 要 主机 
和 存储 系统 都 能 提供 标准 接口 ， 任 何 位 置 的 主机 就 都 可 以 访问 任何 位 置 的 数据 ， 无 论 是 在 同一 机 
房 中 ， 相 隔 几米 ， 还 是 数 公 里 外 的 异地 。 

访问 的 方式 可 以 是 类 似 NAS 结构 中 ， 通 过 NFS、CIFS 等 共享 协议 访问 ， 也 可 以 是 类 似 本 地 
连接 和 传统 SAN 中 ， 本 地 设备 级 访问 。 





数据 存储 技术 的 实现 与 工具 


基于 2.2.2 节 的 介绍 ， 在 本 小 节 ， 主 要 介绍 一 些 NoSQL 数据 存储 工具 。 


2.4.1 集中 式 数据 存储 管理 系统 Bigtable 
Bigtable 是 Google 设计 的 分 布 式 数据 存储 系统 ， 用 来 处 理 海量 数据 的 一 种 非 关系 型 数据 库 。 
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Bigtable 是 非 关 系 的 数据 库 ， 是 一 个 稀 足 的 、 分 布 式 的 、 持 久 化 存储 的 多 维度 排序 Map。Bigtable 
的 设计 目的 是 可 靠 地 处 理 PB 级 别 的 数据 , 并 且 能 够 部 署 到 上 千 台 机 器 上 。Bigtable 已 经 实现 了 下 
面 的 几 个 目标 : 适用 性 广泛 、 可 扩展 、 高 性 能 和 高 可 用 性 。Bigtable 已 经 在 超过 60 个 Google 的 
产品 和 项 目 上 得 到 了 应 用 ， 包 括 Google Analytics、Google Finance、Orkut、Personalized Search、 
Writely 和 GoogleEarth。 这 些 产品 对 Bigtable 提出 了 过 异 的 需求 ， 有 的 需要 高 吞吐 量 的 批 处 理 ， 有 
的 则 需要 及 时 响应 ， 快 速 返回 数据 给 最 终 用 户 。 它 们 使 用 的 Bigtable 集群 的 配置 也 有 很 大 的 差异 ， 
有 的 集群 只 有 几 台 服务 器 ， 而 有 的 则 需要 上 千 台 服务 器 、 存 储 几 百 TB 的 数据 。 

在 很 多 方面 ，Bigtable 和 数据 库 很 类 似 : 它 使 用 了 很 多 数据 库 的 实现 策略 。 并 行 数据 库 和 内 
存 数据 库 已 经 具备 可 扩展 性 和 高 性 能 ， 但 是 Bigtable 提供 了 一 个 和 这 些 系 统 完全 不 同 的 接口 。 
Bigtable 不 支持 完整 的 关系 数据 模型 ， 与 之 相反 ，Bigtable 为 客户 提供 了 简单 的 数据 模型 ， 利 用 这 
个 模型 , 客户 可 以 动态 控制 数据 的 分 布 和 格式 , 用 户 也 可 以 自己 推测 底层 存储 数据 的 位 置 相关 性 。 
数据 的 下 标 是 行 和 列 的 名 字 ， 名 字 可 以 是 任意 的 字符 串 。Bigtable 将 存储 的 数据 都 视 为 字符 串 ， 
但 是 Bigtable 本 身 不 去 解析 这 些 字符 串 ， 客 户 程序 通常 会 把 各 种 结构 化 或 者 半 结 构 化 的 数据 串 行 
化 到 这 些 字符 串 里 。 通 过 仔细 选择 数据 的 模式 ， 客 户 可 以 控制 数据 的 位 置 相 关 性 。 最 后 ， 可 以 通 
过 BigTable 的 模式 参数 来 控制 数据 是 存放 在 内 存 中 、 还 是 硬盘 上 。 

Bigtable 是 设计 用 来 管理 那些 可 能 达到 大 小 很 大 (比如 可 能 是 存储 在 数 千 台 服务 器 上 的 数 PB 
数据 ) 的 结构 化 数据 的 分 布 式 存储 系统 。Google 的 很 多 项 目 都 将 数据 存储 在 Bigtable 中 ， 比 如 
网 页 索引 、Google 地 球 、Google 金融 。 这 些 应 用 对 Bigtable 提出 了 很 多 不 同 的 要 求 ， 无 论 是 数 
据 大 小 (从 单纯 的 URL 到 包含 图 片 附件 的 网 页 ) 还 是 延 时 需求 。 尽 管 存在 这 些 各 种 不 同 的 需求 ， 
Bigtable 成 功 地 为 Google 的 所 有 这 些 产品 提供 了 一 个 灵活 的 、 高 性 能 的 解决 方案 。 


1. BigTable 数据 模型 


Bigtable 是 一 个 稀 芷 的 、 分 布 式 的 一 致 性 多 维 有 序 map。 这 个 map 是 通过 行 关键 字 、 列 关键 
字 以 及 时 间 戳 进行 索引 的 ， map 中 的 每 个 值 都 是 一 个 未 经 解释 的 字 节 数组 。 


(row:string,column: string,time:int64) -> string 





如 果 想 保存 一 份 可 以 被 很 多 工程 使 用 的 一 大 集 网 页 及 其 相关 信息 的 拷贝 。 我 们 把 这 个 表 称 为 
webtable， 在 这 个 表 中 ， 可 以 使 用 URL 作为 行 关键 字 ， 网 页 的 各 种 信息 作为 列 名 称 ， 将 网 页 的 内 
容 作为 表 的 内 容 存储 : 获取 的 时 候 还 需要 在 列 上 加 上 时 间 戳 ， 如 图 2.5 所 示 。 


“contents:” “anchor:cnnsicom” “anchor:my.look.ca” 




















图 25 Bigtable 存储 结构 图 
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表 中 的 行 关 键 字 是 大 字符 串 〈 目 前 最 大 可 以 到 64KB， 尽 管 对 于 大 多 数 用 户 来 说 最 常用 的 是 
10~100B) 。 在 一 个 行 关键 字 下 的 数据 读 写 是 原子 性 的 〈 无 论 这 一 行 有 多 少 个 不 同 的 列 被 读 写 ) ， 
这 个 设计 使 得 用 户 在 对 相同 行 的 并 发 更 新 出 现时 ， 更 容易 理解 系统 的 行为 。 

Bigtable 按照 行 关 键 字 的 字典 序 来 维护 数据 。 行 组 是 可 以 动态 划分 的 。 每 个 行 组 叫做 一 个 
tablet， 是 数据 存放 以 及 负载 平衡 的 单位 。 这 样 ， 对 于 一 个 短 的 行 组 的 读 就 会 很 有 效 ， 而 且 只 需要 
与 少数 的 机 器 进行 通信 。 客 户 端 可 以 通过 选择 行 关键 字 来 利用 这 个 属性 ， 这 样 它们 可 以 为 数据 访 
问 得 到 好 的 locality。 比 如 , 在 webtable 里 ， 相 同 域名 的 网 页 可 以 通过 将 URL 中 的 域名 反 转 而 使 
它们 放 在 连续 的 行 里 来 组 织 到 一 块 。 比 如 将 网 页 maps.Google.com/index.html 的 数据 存放 在 关键 
字 com.Google.maps/index.html 下 。 将 相同 域名 的 网 页 存储 在 邻近 位 置 可 以 使 对 主机 或 域名 的 分 
析 更 加 有 效 。 

不 同 的 列 关键 字 可 以 被 分 组 到 一 个 集合 ， 把 这 样 的 一 个 集合 称 为 一 个 列 族 ， 它 是 基本 的 访问 
控制 单元 。 存 储 在 同一 个 列 族 的 数据 通常 是 相同 类 型 的 。 在 数据 能 够 存储 到 某 个 列 族 的 列 关 键 字 
下 之 前 ， 首 先 必 须要 创建 该 列 族 。 假 设 在 一 个 表 中 不 同 列 族 的 数目 应 该 比较 小 〈 最 多 数 百 个 ) ， 
而 且 在 操作 过 程 中 这 些 列 族 应 该 很 少 变化 。 与 之 相 比 ， 一 个 表 的 列 数目 可 以 没有 限制 。 

-个 列 关键 字 是 使 用 如 下 的 字符 来 命名 的 : family:qualifier。 列 族 名 称 必 须 是 可 打印 的 , 但 是 
qualifier 可 能 是 任意 字符 串 。 比 如 webtable 有 一 个 列 族 是 language, 它 存储 了 网 页 所 使 用 的 语言 。 
在 language 列 族 里 ， 只 使 用 了 一 个 列 关键 字 ， 里 面 存储 了 每 个 网 页 的 language id。 该 表 的 另 一 个 
列 族 是 anchor， 在 该 列 族 的 每 个 列 关 键 字 代表 一 个 单独 的 anchor， 如 图 2.5 所 示 。Qualifier 是 站 
点 的 名 称 ， 里 面 的 内 容 是 链接 文本 。 

访问 控制 以 及 磁盘 和 内 存 分 配 都 是 在 列 族 级 别 进行 的 。 在 webtable 这 个 例子 中 ,这 些 控制 允 
许 管理 不 同类 型 的 应 用 : 一 些 可 能 会 添加 新 的 基础 数据 ， 一 些 可 能 读 取 这 些 基础 数据 来 创建 新 的 
列 族 ， 一 些 可 能 只 需要 查看 现 有 数据 〈 甚 至 可 能 因为 隐私 策略 而 无 法 查看 所 有 现 有 数据 ) 。 

Bigtable 里 的 每 个 cell 可 以 包含 相同 数据 的 多 个 版 本 ; 这 些 不 同 的 版 本 是 通过 时 间 戳 索引 的 。 
Bigtable 的 时 间 戳 是 一 个 64 位 的 整数 。 它 们 可 以 由 Bigtable 来 赋值 ， 在 这 种 情况 下 它们 以 毫秒 
来 代表 时 间 。 也 可 以 由 客户 端 应 用 程序 显 式 分 配 。 应 用 程序 为 了 避免 冲突 必须 能 够 自己 生成 唯一 
的 时 间 戳 。 一 个 cell 的 不 同 版 本 是 按照 时 间 戳 降序 排列 ， 这 样 最 近 的 版 本 可 以 被 首先 读 到 。 

为 了 使 不 同 版 本 的 数据 管理 更 简单 ， 支 持 通过 两 种 方法 针对 每 个 列 族 进 行 设 定 ， 来 告诉 
Bigtable 如 何 对 cell 中 的 数据 版 本 进行 自动 的 垃圾 回收 : 用 户 可 以 指定 最 近 的 哪儿 个 版 本 需要 保 
存 ， 或 者 保存 那些 足够 新 的 版 本 〔 比 如 只 保存 那些 最 近 7 天 写 的 数据 ) 。 

在 webtable 中 , 将 被 抓 取 网 页 的 时 间 戳 存储 在 contents 里 : 这 些 时 间 说 明了 这 些 网 页 的 不 同 
版 本 分 别 是 在 何 时 被 抓 取 的 。 前 面 描述 的 垃圾 回收 机 制 ， 可 以 只 保存 每 个 网 页 最 近 的 三 个 版 本 。 

2. BigTable 的 基础 构件 

BigTable 建立 在 Google 的 其 他 几 个 设施 之 上 。Bigtable 使 用 GFS 来 存储 日 志和 数据 文件 。 
Bigtable 集群 通常 运行 在 一 个 运行 着 大 量 其 他 分 布 式 应 用 的 共享 机 器 池上 。Bigtable 依赖 于 一 个 


集群 管理 系统 进行 job 调度 和 共享 机 器 上 的 资源 管理 ， 处 理 机 器 失败 以 及 监控 机 器 状态 。 
Bigtable 内 部 采用 Google SSTable 文件 格式 来 存储 数据 。 一 个 SSTable 提供 了 一 个 一 致 性 的 、 





38 


第 2 章 ”数据 存储 技术 


有 序 的 从 key 到 value 的 不 可 变 map，key 和 value 都 是 任意 的 字 节 串 。 操 作 通 常 是 通过 一 个 给 定 
的 key 来 查找 相应 的 value, 或 者 在 一 个 给 定 的 key range 上 迭代 所 有 的 key/value 对 。 每 个 SSTable 
内 部 包含 一 系列 的 块 (通常 每 个 块 大 小 是 64KB， 该 大 小 是 可 配置 的 ) 。 一 个 块 索引 是 用 来 定位 
block 的 ， 当 SSTable 打开 时 该 索引 会 被 加 载 到 内 存 。 一 次 查找 可 以 通过 一 次 磁盘 访问 完成 : 首先 
通过 在 内 存 中 的 索引 进行 一 次 二 分 查找 找到 相应 的 块 ， 然 后 从 磁盘 中 读 取 该 块 。 另 外 ， 一 个 
SSTable 可 以 被 完全 映射 到 内 存 ， 这 样 不 需要 接触 磁盘 就 可 以 执行 所 有 的 查找 和 扫描 。 

Bigtable 依赖 于 一 个 高 可 用 的 一 致 性 分 布 式 锁 服 务 Chubby。Chubby 由 5 个 活动 副本 组 成 ， 
其 中 的 一 个 选 为 master 处 理 请 求 。 当 超过 半数 的 副本 运行 并 且 可 以 相互 通信 时 , 该 服务 就 是 可 用 
的 。Chubby 使 用 Paxos 算法 来 保证 在 出 现 失败 时 , 副本 的 一 致 性 。Chubby 提供 了 一 个 由 目录 和 
小 文件 组 成 的 名 字 空 间 。 每 个 文件 或 者 目录 可 以 当 作 一 个 锁 来 使 用 ， 对 于 一 个 文件 的 读 写 是 原子 
性 的 。Chubby 的 客户 端 库 为 Chubby 文件 提供 一 致 性 缓存 。 每 个 Chubby 客户 端 维护 着 一 个 与 
Chubby 服务 的 会 话 。 如 果 在 租约 有 效 时 间 内 无 法 更 新 会 话 的 租约 ， 客 户 端的 会 话 就 会 过 期 。 当 
一 个 客户 端 会 话 过 期 后 , 它 会 丢失 所 有 的 锁 和 打开 的 文件 句柄 。Chubby 客户 端 也 会 在 Chubby 文 
件 和 目录 上 注册 回调 函数 来 处 理 这 些 变更 或 者 会 话 的 过 期 。 


3. Table 放置 
BigTable 使 用 一 个 类 似 于 B+ 树 的 三 级 结构 来 存储 tablet 的 放置 信息 ， 如 图 2.6 所 示 。 






UserTablel 


Chubby File 


UserTableN 








2.6 METADATA 组 织 结构 图 


首先 是 第 一 层 ，Chubby file。 这 一 层 是 一 个 Chubby 文件 ， 它 保存 着 root tablet 的 位 置 。 这 个 
Chubby 文件 属于 Chubby 服务 的 一 部 分 , 一 旦 Chubby 不 可 用 , 就 意味 着 丢失 了 root tablet 的 位 置 ， 
整个 Bigtable 也 就 不 可 用 了 。 
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第 二 层 是 root tablet。root tablet 其 实 是 元 数据 表 (METADATA tablet) 的 第 一 个 分 片 ， 它 保 
存 着 元 数据 表 其 他 片 的 位 置 。root tablet 很 特别 ， 为 了 保证 树 的 深度 不 变 ，root tablet 从 不 分 裂 。 

第 三 层 是 其 他 的 元 数据 片 ， 它 们 和 root tablet 一 起 组 成 完整 的 元 数据 表 。 每 个 元 数据 片 都 包 
含 了 许多 用 户 片 的 位 置信 息 。 

可 以 看 出 整个 定位 系统 其 实 只 是 两 部 分 ， 一 个 Chubby 文件 ， 一 个 元 数据 表 。 注 意 元 数据 表 
虽然 特殊 ， 但 也 仍然 服从 前 文 的 数据 模型 ， 每 个 分 片 也 都 是 由 专门 的 片 服务 器 负责 ， 这 就 是 不 需 
要 主 服务 器 提供 位 置信 息 的 原因 。 客 户 端 会 缓存 片 的 位 置信 息 ， 如 果 在 缓存 里 找 不 到 一 个 片 的 位 
置信 息 ， 就 需要 查找 这 个 三 层 结 构 了 ， 包 括 访问 一 次 Chubby 服务 ， 访 问 两 次 片 服务 器 。 

root tablet 大 小 为 128M， 每 个 行 1KB， 那 么 它 就 可 以 存储 128*2^20/2^10=128*2^10 个 
METADATA tablet， 同 样 的 ， 每 个 METADATA tablet 可 以 存储 128*2^10 个 普通 tablet， 这 样 总 
共 可 以 存储 128*2^10*128*2^10 即 2^34 个 普通 tablet， 每 个 tablet 有 将 近 1KB 元 数据 ， 这 样 算 
起 来 存储 这 些 元 信息 就 需要 4TB 的 数据 ， 所 以 该 METADATA 表 是 分 布 式 地 放 在 不 同 的 机 器 上 
的 ， 同 时 也 不 可 能 全 部 放 入 内 存 ， 而 是 采用 与 普通 的 表 一 样 的 存储 方式 ， 放 在 GFS 上 。 


4. Table 分 配 


在 任何 一 个 时 刻 ， 一 个 Tablet 只 能 分 配给 一 个 Tablet 服务 器 。Master 服务 器 记录 了 当前 有 哪 

些 活 跃 的 Tablet 服务 器 、 哪 些 Tablet 分 配给 了 哪些 Tablet 服务 器 、 哪 些 Tablet 还 没有 被 分 配 。 当 
-个 Tablet 还 没有 被 分 配 、 并 且 刚好 有 一 个 Tablet 服务 器 有 足够 的 空闲 空间 装载 该 Tablet 时 ， 
Master 服务 器 会 给 这 个 Tablet 服务 器 发 送 一 个 装载 请 求 ， 把 Tablet 分 配给 这 个 服务 器 。 

BigTable 使 用 Chubby 跟踪 记录 Tablet 服务 器 的 状态 。 当 一 个 Tablet 服务 器 启动 时 ， 它 在 
Chubby 的 一 个 指定 目录 下 建立 一 个 有 唯一 性 名 字 的 文件 , 并 且 获取 该 文件 的 独占 锁 。Master 服务 
器 实时 监控 着 这 个 目录 〈 服 务 器 目录 ) ， 因 此 Master 服务 器 能 够 知道 有 新 的 Tablet 服务 器 加 入 
了 。 如 果 Tablet 服务 器 丢失 了 Chubby 上 的 独占 锁 一 一 比如 由 于 网 络 断 开 导致 Tablet 服务 器 和 
Chubby 的 会 话 丢 失 一 一 它 就 停止 对 Tablet 提供 服务 。Chubby 提供 了 一 种 高 效 的 机 制 ， 利 用 这 种 
机 制 , Tablet 服务 器 能 够 在 不 增加 网 络 负担 的 情况 下 知道 它 是 否 还 持 有 锁 。 只 要 文件 还 存在 , Tablet 
服务 器 就 会 试图 重新 获得 对 该 文件 的 独占 锁 ， 如 果 文 件 不 存在 了 ， 那 么 Tablet 服务 器 就 不 能 再 提 
供 服 务 了 ， 它 会 自行 退出 。 当 Tablet 服务 器 终止 时 《〈 比 如 ， 集 群 的 管理 系统 将 运行 该 Tablet 服务 
器 的 主机 从 集群 中 移 除 ) ， 它 会 尝试 释放 它 持 有 的 文件 锁 ， 这 样 一 来 ，Master 服务 器 就 能 尽快 把 
Tablet 分 配 到 其 他 的 Tablet 服务 器 。 

Master 服务 器 负责 检查 一 个 Tablet 服务 器 是 否 已 经 不 再 为 它 的 Tablet 提供 服务 ， 并 且 要 尽快 
重新 分 配 它 加 载 的 Tablet。 Master 服务 器 通过 轮 询 Tablet 服务 器 文件 锁 的 状态 来 检测 何 时 Tablet 
服务 器 不 再 为 Tablet 提供 服务 。 如 果 一 个 Tablet 服务 器 报告 它 丢失 了 文件 锁 , 或 者 Master 服务 器 
最 近 几 次 尝试 和 它 通 信 都 没有 得 到 响应 ，Master 服务 器 就 会 尝试 获取 该 Tablet 服务 器 文件 的 独占 
锁 ; 如 果 Master 服务 器 成 功 获取 了 独占 锁 ， 那 么 就 说 明 Chubby 是 正常 运行 的 ， 而 Tablet 服务 器 
要 么 是 宕 机 了 ,要么 是 不 能 和 Chubby 通 信 了 , 因此 , Master 服务 器 就 删除 该 Tablet 服务 器 在 Chubby 
上 的 服务 器 文件 以 确保 它 不 再 给 Tablet 提供 服务 。 一 旦 Tablet 服务 器 在 Chubby 上 的 服务 器 文件 
被 删除 了 ，Master 服务 器 就 把 之 前 分 配给 它 的 所 有 的 Tablet 放 入 未 分 配 的 Tablet 集合 中 。 为 了 确 
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保 Bigtable 集群 在 Master 服务 器 和 Chubby 之 间 网 络 出 现 故障 的 时 候 仍然 可 以 使 用 ，Master 服务 
器 在 它 的 Chubby 会 话 过 期 后 主动 退出 。 但 是 不 管 怎样 ， 如 同 前 面 所 描述 的 ，Master 服务 器 的 故 
障 不 会 改变 现 有 Tablet 在 Tablet 服务 器 上 的 分 配 状态 。 

当 集 群 管理 系统 启动 了 一 个 Master 服务 器 之 后 , Master 服务 器 首先 要 了 解 当 前 Tablet 的 分 配 
状态 ， 之 后 才能 够 修改 分 配 状 态 。 Master 服务 器 在 启动 的 时 候 执行 以 下 步骤 :(1)Master 服务 器 从 
Chubby 获取 一 个 唯一 的 Master 锁 ， 用 来 阻止 创建 其 他 的 Master 服务 器 实例 ，(2)Master 服务 器 扫 
描 Chubby 的 服务 器 文件 锁 存 储 目 录 ， 获 取 当 前 正在 运行 的 服务 器 列表 ; (3)Master 服务 器 和 所 有 
的 正在 运行 的 Tablet 表 服 务 器 通信 ， 获 取 每 个 Tablet 服务 器 上 Tablet 的 分 配 信息 ; (4)Master 服务 
器 扫描 METADATA 表 获 取 所 有 的 Tablet 的 集合 。 在 扫描 的 过 程 中 ， 当 Master 服务 器 发 现 了 一 
个 还 没有 分 配 的 Tablet，Master 服务 器 就 将 这 个 Tablet 加 入 未 分 配 的 Tablet 集合 等 待 合适 的 时 机 
分 配 。 

可 能 会 遇 到 一 种 复杂 的 情况 : 在 METADATA 表 的 Tablet 还 没有 被 分 配 之 前 是 不 能 够 扫描 它 
的 。 因 此 ， 在 开始 扫描 之 前 步骤 4) ， 如 果 在 第 三 步 的 扫描 过 程 中 发 现 Root Tablet 还 没有 分 配 ， 
Master 服务 器 就 把 Root Tablet 加 入 到 未 分 配 的 Tablet 集合 。 这 个 附加 操作 确保 了 Root Tablet 会 被 
分 配 。 由 于 Root Tablet 包括 了 所 有 METADATA 的 Tablet 的 名 字 , 因此 Master 服务 器 扫描 完 Root 
Tablet 以 后 ， 就 得 到 了 所 有 的 METADATA 表 的 Tablet 的 名 字 。 

保存 现 有 Tablet 的 集合 只 有 在 以 下 事件 发 生 时 才 会 改变 : 建立 了 一 个 新 表 或 者 删除 了 一 个 旧 
表 、 两 个 Tablet 被 合并 了 或 者 一 个 Tablet 被 分 割 成 两 个 小 的 Tablet。Master 服务 器 可 以 跟踪 记录 
所 有 这 些 事件 ， 因 为 除了 最 后 一 个 事件 外 的 两 个 事件 都 是 由 它 启动 的 。Tablet 分 割 事 件 需要 特殊 
处 理 ， 因 为 它 由 Tablet 服务 器 启动 。 在 分 割 操 作 完成 之 后 ，Tablet 服务 器 通过 在 METADATA 表 
中 记录 新 的 Tablet 的 信息 来 提交 这 个 操作 ; 当 分 割 操作 提交 之 后 ，Tablet 服务 器 会 通知 Master 服 
务 器 。 如 果 分 割 操作 已 提交 的 信息 没有 通知 到 Master 服务 器 (可 能 两 个 服务 器 中 有 一 个 宕 机 了 》， 
Master 服务 器 在 要 求 Tablet 服务 器 装载 已 经 被 分 割 的 子 表 的 时 候 会 发 现 一 个 新 的 Tablet。 通 过 对 
比 METADATA 表 中 Tablet 的 信息 ，Tablet 服务 器 会 发 现 Master 服务 器 要 求 其 装载 的 Tablet 并 
不 完整 ， 因 此 ，Tablet 服务 器 会 重新 向 Master 服务 器 发 送 通知 信息 。 


5. Tablet 服务 


如 图 2.7 所 示 ，Tablet 的 持久 化 状态 信息 保存 在 GFS 上 。 更 新 操作 提交 到 REDO 日 志 中 。 在 
这 些 更 新 操作 中 ,最 近 提 交 的 那些 存放 在 一 个 排序 的 缓存 中 ,我 们 称 这 个 缓存 为 memtable; 较 早 
的 更 新 存放 在 一 系列 SSTable 中 。 为 了 恢复 一 个 Tablet，Tablet 服务 器 首先 从 METADATA 表 中 
读 取 它 的 元 数据 。Tablet 的 元 数据 包含 了 组 成 这 个 Tablet 的 SSTable 的 列表 ， 以 及 一 系列 的 Redo 
Point, 这 些 Redo Point 指向 可 能 含有 该 Tablet 数据 的 已 提交 的 日 志 记 录 。Tablet 服务 器 把 SSTable 
的 索引 读 进 内 存 ， 之 后 通过 重复 Redo Point 之 后 提交 的 更 新 来 重建 memtable。 
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当 对 Tablet 服务 器 进行 写 操 作 时 ，Tablet 服务 器 首先 要 检查 这 个 操作 格式 是 否 正 确 、 操 作 发 
起 者 是 否 有 执行 这 个 操作 的 权限 。 权 限 验 证 的 方法 是 通过 从 一 个 Chubby 文件 里 读 取出 来 的 具有 
写 权限 的 操作 者 列表 来 进行 验证 (这 个 文件 几乎 一 定 会 存放 在 Chubby 客户 缓存 里 ) 。 成 功 的 修 
改 操作 会 记录 在 提交 日 志 里 。 可 以 采用 批量 提交 方式 来 提高 包含 大 量 小 的 修改 操作 的 应 用 程序 的 
吞吐 量 。 当 一 个 写 操作 提交 后 ， 写 的 内 容 插入 到 memtable 里 面 。 

当 对 Tablet 服务 器 进行 读 操作 时 ，Tablet 服务 器 会 作 类 似 的 完整 性 和 权限 检查 。 一 个 有 效 的 
读 操作 在 一 个 由 一 系列 SSTable 和 memtable 合并 的 视图 里 执行 。 由 于 SSTable 和 memtable 是 按 
字典 排序 的 数据 结构 ， 因 此 可 以 高 效 地 生成 合并 视图 。 

当 进行 Tablet 的 合并 和 分 割 时 ， 正 在 进行 的 读 写 操作 能 够 继续 进行 。 

6. BigTable 优化 策略 

前 面 一 节 描述 的 实现 需要 大 量 的 技巧 来 到 达 用 户 所 需要 的 高 性 能 、 可 用 性 、 可 靠 性 。 这 一 节 
更 细节 地 描述 实现 的 各 个 部 分 ， 着 重 讲述 使 用 的 技术 。 

(1) Locality groups〈 对 应 一 个 SSTable) 

用 户 可 以 将 多 个 列 族 组 织 为 一 个 Locality group。 对 于 每 个 tablet 里 的 每 个 Locality group 都 
会 生成 一 个 单独 的 SSTable。 将 那些 经 常 不 被 访问 的 列 族 分 离 到 一 个 独立 的 群 组 可 以 增加 访问 的 
效率 。 比 如 ，webtable 的 关于 网 页 的 元 数据 (比如 语言 ， 校 验 和 ) 可 放 到 一 个 Locality group， 网 
页 内 容 可 以 放 到 另 一 个 群 组 里 ， 这 样 一 个 访问 元 数据 的 应 用 程序 就 不 需要 读 取 所 有 网 页 的 内 容 。 

另外 ， 一 些 有 用 的 tuning 参数 也 可 以 以 Locality group 为 单位 进行 设置 。 比 如 一 个 Locality 
group 可 以 声明 为 放 入 内 存 的 。 对 于 声明 为 放 入 内 存 的 Locality group 的 SSTable 在 需要 时 才 会 加 
载 到 tablet 服务 器 的 内 存 中 。 一 旦 加 载 之 后 ， 对 于 该 Locality group 的 访问 就 不 需要 访问 磁 担 。 
这 个 特点 对 于 那些 需要 经 常 访问 的 小 片 数据 很 有 用 : 比如 在 Bigtable 内 部 我 们 将 它 应 用 在 
METADATA 表 的 location 列 族 上 。 


(2) 压缩 
用 户 可 以 控制 对 于 一 个 Locality group 的 SSTables 是 否 进行 压缩 ， 以 及 使 用 哪 种 压缩 格式 。 
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用 户 指定 的 压缩 格式 会 应 用 在 SSTable 的 每 个 块 上 〈 块 大 小 可 以 通过 一 个 Locality group 的 参数 
进行 控制 ) 。 对 于 每 个 块 单独 进行 压缩 ， 尽 管 这 使 我 们 丢失 了 一 些 空间 ， 但 是 我 们 不 需要 解压 整 
个 文件 就 可 以 读 取 SSTable 的 部 分 内 容 。 很 多 用 户 使 用 一 个 两 遍 压 缩 模式 ， 第 一 遍 压 缩 使 用 
Bentley and Mcllroy 模式 ， 该 模式 在 一 个 很 大 的 窗口 大 小 里 压缩 普通 的 长 字符 串 。 第 二 遍 压缩 使 
用 了 一 个 快速 压缩 算法 ， 该 算法 在 一 个 小 的 16KB 窗口 大 小 内 查找 重复 。 这 两 遍 压 缩 都 很 快速 ， 
压缩 速率 在 100~200MB/s， 解 压 速 率 在 400~1000MB/s。 

尽管 在 选择 压缩 算法 时 ， 我 们 更 重视 速率 而 不 是 空间 的 减少 ， 但 是 这 个 两 遍 压 缩 模式 工作 的 
出 奇 地 好 。 比 如 , 在 webtable 里 使 用 这 种 压缩 模式 存储 网 页 内 容 。 实 验 中 , 在 一 个 压缩 的 Locality 
group 里 存储 了 大 量 文档 。 为 了 实验 目的 ， 将 文档 的 版 本 数 限制 为 1。 该 压缩 模式 达到 了 10:1 的 
压缩 率 。 这 比 通 常 的 Gzip 对 于 HTML 网 页 的 3:1 或 4:1 的 压缩 率 要 好 多 了 。 这 是 由 我 们 的 
webtable 的 行 分 布 方式 造成 的 : 来 自 相同 主机 的 网 页 被 存储 在 相 邻 的 位 置 。 这 使 Bentley and 
Mcllroy 算法 可 以 识别 出 来 自 相同 站 点 的 大 量 固有 模式 。 很 多 应 用 程序 ， 不 仅仅 是 webtable， 选 
择 的 行 名 称 使 得 类 似 数据 会 聚集 在 一 起 ， 因 此 达到 了 很 好 的 压缩 率 。 当 我 们 在 Bigtable 中 存储 相 
同 值 的 多 个 版 本 时 压缩 率 会 更 好 。 


7. BigTable 实际 应 用 





(1) Google Analytics 

Google Analytics 是 一 个 帮助 站 长 分 析 站 点 的 流量 横 式 的 服务 。 它 提供 整体 的 统计 ， 比 如 每 天 
内 的 不 同 访问 者 数目 ， 每 个 URL 每 天 的 访问 数 ， 以 及 一 些 站 点 反馈 报告 ， 比 如 那些 打开 了 某 特 
定 页 面 后 的 访问 者 进行 交易 的 比例 。 

为 了 使 用 这 项 服务 ， 站 长 需要 在 他 们 的 页 面 里 嵌入 一 个 小 JavaScript 程序 。 它 会 将 关于 请 求 
的 各 项 信息 记录 在 Google Analytics 里 , 比如 用 户 标识 以 及 该 网 页 被 获取 的 信息 。 Google Analytics 
对 这 些 数据 进行 分 析 并 给 站 长 使 用 。 

我 们 简要 描述 Google Analytics 使 用 的 两 个 表 。 原 始 的 点 击 表 (大概 200TB》〉 为 每 个 终端 用 
户 会 话 维护 一 条 记录 。 行 的 名 称 是 一 个 由 站 点 名 称 以 及 会 话 创建 时 间 组 成 的 元 组 。 这 种 schema 使 
得 那些 访问 相同 站 点 的 会 话 是 相 邻 的 ， 而 且 是 按照 时 间 排 序 的 ， 这 个 表格 可 以 压缩 到 原始 大 小 的 
14%。 

摘要 表格 (大 概 20TB) 包含 对 每 个 站 点 各 种 预定 义 的 摘要 。 这 个 表格 是 通过 周期 性 调度 的 
MapReduce jobs 从 原始 点 击 表 生成 出 来 的 。 每 个 MapReduce job 从 原始 点 击 表 抽 取出 最 近 的 会 话 
数据 。 系 统 整 体 的 吞吐 率 由 GFS 的 吞吐 率 决 定 ， 这 个 表格 可 以 压缩 为 原始 大 小 的 29%。 


(2) Google 地 球 

Google 提供 一 组 服务 , 使 得 用 户 既 可 以 通过 网 页 也 可 以 通过 Google 地 球 客户 端 软件 访问 地 
球 表面 的 高 分 辨 率 卫 星 图 像 。 这 些 产 品 允 许 用 户 浏览 地 球 表面 : 他 们 可 以 在 不 同 的 分 辨 率 上 拍摄 、 
观看 、 注 释 卫星 图 像 。 系 统 使 用 一 个 表 来 预 处 理 数 据 ， 用 另外 一 些 表 来 为 用 户 提供 数据 。 

预 处 理 流 程 使 用 一 个 表 来 存储 原始 图 像 。 在 预 处 理 期 间 ， 图 像 被 整理 ， 然 后 合并 为 最 终 的 服 
务 数据 。 这 个 表 大 概 有 70TB 数据 ， 因 此 需要 通过 硬盘 提供 服务 。 图 像 本 来 已 进行 了 压缩 ， 因 此 
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Bigtable 的 压缩 选项 被 关 掉 了 。 

图 像 表 里 的 每 一 行 对 应 一 个 地 理 区 域 ， 行 的 命名 方式 保证 相 邻 的 地 理 位 置 会 被 存储 到 邻近 的 
位 置 。 表 格 包含 一 个 列 族 来 保存 每 个 区 域 的 数据 源 。 这 个 列 族 有 大 量 的 列 : 每 个 列 保存 一 个 原始 
数据 图 片 。 因 为 每 个 区 域 仅仅 从 是 几 个 图 片 构建 出 来 的 ， 因 此 这 个 列 族 是 很 稀 政 的 。 

这 个 预 处 理 流程 依赖 于 MapReduce 在 Bigtable 上 进行 数据 转换 。 在 这 些 MapReduce jobs 运 
行 期 间 ， 整 个 系统 每 个 tablet 服务 器 的 数据 处 理 速度 超过 1MB/s。 

服务 系统 使 用 一 个 表 来 索引 存储 在 GFS 中 的 数据 。 这 个 表 相对 小 一 些 (大 概 500GB) ， 但 
是 每 个 数据 中 心 每 秒 必须 要 为 数 千 个 查询 提供 低 延 时 服务 。 因 此 ， 这 个 表 实际 上 会 占用 几 百 个 
tablet 服务 器 ， 包 含 许多 in-memory 列 族 。 


(3) 个 性 化 搜索 

个 性 化 搜索 是 一 个 用 来 记录 用 户 在 Google 很 多 产品 〈 比 如 网 页 搜索 、 图 像 新 闻 搜 索 ) 的 查 
询 和 单 击 记 录 的 可 选 服务 。 用 户 可 以 通过 浏览 搜索 历史 来 查看 过 去 的 查询 和 单 击 ， 可 以 通过 
Google 的 历史 记录 得 到 个 性 化 的 搜索 结果 。 个 性 化 搜索 将 每 个 用 户 的 数据 保存 在 Bigtable 里 。 每 
个 用 户 具有 唯一 的 用 户 id， 并 分 配给 他 一 个 以 用 户 id 命名 的 行 。 所 有 的 用 户 动作 保存 在 表 中 。 
每 个 类 型 的 动作 用 一 个 独立 的 列 族 保存 〈 比 如 有 一 个 列 族 保存 所 有 的 网 页 查询 ) 。 每 个 数据 元 素 
使 用 对 应 动作 的 发 生 时 间作 为 它 在 Bigtable 中 的 时 间 戳 。 个 性 化 搜索 通过 在 Bigtable 上 的 
MapReduce 产生 用 户 特征 。 这 些 用 户 特 征 被 用 来 个 性 化 实时 搜索 结果 。 

为 了 提高 可 用 性 和 降低 用 户 延 时 ， 个 性 化 搜索 数据 备份 在 多 个 Bigtable 集群 上 。 个 性 化 搜索 
团队 起 初 自己 在 Bigtable 之 上 建立 了 一 个 用 户 端 备份 机 制 来 保证 所 有 备份 的 一 致 性 。 现 在 的 系统 
已 经 使 用 一 个 内 建 到 服务 端的 备份 子 系统 了 。 

个 性 化 搜索 存储 系统 的 设计 允许 其 他 团队 在 他 们 的 列 中 添加 新 的 用 户 信息 。 现 在 这 个 系统 已 
经 被 很 多 其 他 需要 存储 用 户 配置 和 设置 信息 的 Google 产品 使 用 。 多 个 团队 间 共 享 一 个 表 使 得 表 
具有 大 量 的 列 族 。 为 了 支持 共享 ， 给 Bigtable 添加 了 一 个 简单 的 quota 机 制 来 限制 共享 表 的 用 户 
的 存储 消耗 。 这 个 机 制 为 不 同 产品 团队 使 用 该 系统 进行 用 户 信息 存储 提供 了 隔离 性 。 





2.4.2 非 集中 式 的 大 规模 数据 管理 系统 Dynamo 


Dynamo 是 一 个 基于 分 布 式 哈 希 的 非 集中 式 的 大 规模 数据 管理 系统 。 在 Dynamo 中 ， 数 据 按 
照 键 / 值 对 组 织 ， 主 要 面向 原始 数据 的 存储 。 这 种 架构 下 ， 系 统 中 每 个 节点 都 能 相互 感知 ， 自 我 管 
理性 能 较 强 ， 没 有 单 点 失效 。 

Dynamo 有 如 下 特点 : 


e 简单 的 存 取 模 式 ， 只 支持 KV 模式 的 数据 存 取 ， 同 时 特定 于 小 于 1M 的 数据 。 
e 高 可 用 性 ， 即 便 在 集群 中 部 分 机 器 故障 ， 网 络 中 断 、 甚 至 是 整个 机 房 下 线 ， 仍 能 保证 用 户 





e 高 可 扩展 性 ， 除 了 能 够 跨 机 房 部 署 外 ， 可 动态 增加 、 删 除 集群 节点 ， 同 时 对 正常 集群 影响 
很 小 。 
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ee ”数据 的 高 可 用 性 大 于 数据 的 一 致 性 ,， 短 时 间 的 数据 不 一 致 是 可 以 容忍 的 ,， 采用 最 终 一 致 性 
来 保证 数据 的 高 可 用 。 

@ 服务 于 内 网 ， 数 据 间 没有 隔离 。 

”服务 保证 条 约 ， 在 Amazon 一 切 涡 服 务 的 原则 下 ， 每 个 模块 都 要 为 其 使 用 者 提供 服务 时 间 
保证 ， 比 如 在 每 秒 500 个 请 求 的 压力 下 ，99.9% 的 请 求 要 在 300ms 内 返回 。 


接 下 来 详细 介绍 为 了 完成 上 述 目标 ，Dynamo 中 所 采用 的 技术 方案 。 


1. 数据 划分 (Partition) 


Dynamo 作为 一 个 分 布 式 的 存储 ， 必 须 能 够 将 用 户 输入 的 数据 划分 到 集群 中 的 不 同 机 器 中 存 
储 。 传 统 的 划分 方式 都 是 类 Hash 的 ， 即 按照 数据 中 的 某 些 特 征 值 做 Hash (一 般 都 是 取 模 ), 使 数 
据 映射 到 下 边 的 机 器 中 。 但 是 这 种 方式 有 一 个 很 大 的 缺点 ， 那 就 是 当 集群 中 机 器 增加 的 时 候 ， 之 
前 的 Hash 全 部 都 失效 了 ， 再 Hash 的 成 本 很 大 ， 也 就 制约 了 集群 的 扩展 。 

Dynamo 中 采用 了 “一 致 性 Hash” 来 解决 这 个 问题 。 一 致 性 哈 希 算法 将 哈 希 函数 的 值 域 首尾 
相 接 形成 一 个 环 。 系 统 中 的 每 一 个 节点 在 值 域 区 间 内 随机 分 配 一 个 值 以 作为 节点 在 环 中 的 位 置 。 
这 些 值 将 环 划分 成 不 同 的 范围 ， 分 配给 集群 系统 中 的 不 同 节点 进行 管理 。 当 对 数据 进行 请 求 〈 读 
取 / 插 入 ) 时 ， 通 过 计算 该 键 / 值 对 中 键 的 哈 希 值 ， 沿 环 顺 时 针 找 到 第 一 个 节点 进行 服务 请 求 。 

如 图 2.8 所 示 。4 个 节点 被 随机 分 布 到 环 上 ， 当 数据 记录 的 哈 希 键 (key) 落 入 区 间 (节点 3， 
节点 1) 时 沿 环 顺 时 针 找 到 节点 1 进行 存储 。 依 次 类 推 ， 节 点 2 存储 哈 希 值 落 入 区 间 (节点 1， 节 
点 2) 的 数据 ， 节 点 4 存储 哈 希 值 落 入 区 间 (节点 2， 节点 4) 的 数据 ， 等 等 。 其 优势 主要 体现 在 
以 下 两 个 方面 : 
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计算 哈 希 


2.8 一 致 性 Hash 示意 图 


e 通过 数据 的 哈 希 键 值 直 接 定 位 到 相应 的 存储 节点 ， 实 现 了 数据 的 自动 划分 。 

e 满足 系统 扩展 性 需求 ， 最 大 限度 地 抑制 了 节点 变化 ( 添加 / 移 除 ) 时 重新 分 布 的 数据 总 量 。 
如 图 2.9 所 示 ， 在 节点 5 加 入 系统 前 ， 节 点 4 存储 映射 到 区 间 ( 节点 2， 节 点 4 ) 的 数据 。 
当 系统 访问 压力 过 大 时 ， 通 过 增加 新 的 节点 5 来 缓解 压力 。 而 此 时 哈 希 环 上 只 有 节点 4 
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的 管理 范围 一 一 区 间 (节点 5， 节 点 4) 发 生 改 变 ， 映 射 到 区 间 (节点 2， 节 点 5 ) 的 数据 
则 由 节点 5 存储 ， 因 而 只 需 将 节点 4 中 映射 到 区 间 (节点 2， 节 点 5) 的 数据 (图 中 椭圆 
网 影 区 域 ) 迁移 到 节点 5 中 即 完成 了 节点 扩展 的 操作 。 这 避免 了 大 量 数据 进行 迁移 的 开 
销 ， 有 利于 改进 系统 的 可 扩展 性 。 








图 2.9 一 致 性 Hash 加 入 新 结 点 


由 于 Dynamo 采用 非 集中 的 管理 方式 ， 所 以 系统 中 没有 专门 节点 进行 元 数据 信息 (数据 存放 
位 置 等 ) 的 存储 和 管理 。 数 据 到 存储 节点 的 映射 通过 系统 中 各 节点 在 本 地 维护 的 存储 节点 列表 进 
行 管理 ， 并 利用 gossip 机 制 进行 交互 更 新 。 因 此 针对 某 一 个 键 的 读 写 操作 ， 每 个 节点 根据 本 地 存 
放 的 相关 信息 ， 快 速 定位 到 正确 的 节点 集 执行 。 


2. 负载 均衡 


传统 的 一 致 性 哈 希 算法 在 某 种 程度 上 解决 了 系统 扩展 性 的 问题 ， 但 是 无 法 解决 用 户 访问 的 随 
机 性 以 及 节点 的 异 构 特性 所 带 来 的 负载 不 均衡 。Dynamo 利用 虚拟 节点 技术 ， 有 效 地 将 数据 均匀 
存储 到 各 个 节点 上 ， 将 访问 请 求 的 压力 分 散 开 ， 保 证 了 系统 的 健壮 性 和 负载 的 均衡 性 。 

虚拟 节点 的 概念 是 对 一 致 性 哈 希 算法 的 扩充 ， 它 将 一 个 物理 节点 拆 分 成 多 个 虚拟 节点 映射 到 
哈 希 环 上 的 不 同位 置 ， 取 代 了 传统 一 致 性 哈 希 中 一 个 物理 节点 只 对 应 哈 希 环 上 一 个 点 的 映射 关 
系 。 使 用 虚拟 节点 的 优势 主要 体现 在 以 下 方面 。 

(1) 解决 节点 异 构 带 来 的 负载 不 均衡 

虚拟 节点 作为 一 个 资源 容器 ， 而 存储 作为 一 个 服务 运行 于 其 中 。 通 过 虚拟 节点 将 资源 管理 粒 
度 单元 化 。 这 样 ， 资 源 多 的 节点 可 以 多 部 署 一 些 虚拟 节点 ， 而 资源 少 的 节点 可 以 少 部 署 一 些 虚拟 
节点 ， 从 而 达到 一 种 相对 均衡 的 状态 。 

(2) 解决 用 户 访问 随机 性 带 来 的 访问 压力 不 均衡 

通过 将 访问 压力 较 大 的 虚拟 节点 分 配给 服务 能 力 强 的 物理 节点 进行 服务 ， 将 访问 压力 较 小 的 
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动态 的 负载 均衡 。 


(3) 解决 用 户 请 求 随机 性 或 者 节点 加 入 离开 时 带 来 的 数据 不 均衡 

虚拟 节点 方法 能 在 最 大 程度 上 降低 为 了 数据 均衡 进行 数据 迁移 所 带 来 的 系统 开销 。 比 如 ， 当 
在 哈 希 环 中 加 入 一 个 新 的 物理 节点 时 ， 为 了 保持 数据 均匀 分 布 的 特性 ， 传 统 的 一 致 性 哈 希 算法 需 
要 进行 全 环节 点 的 数据 迁移 来 到 达到 数据 均衡 ， 这 样 大 大 增加 了 网 络 的 开销 。 而 采用 虚拟 节点 的 
方法 ， 一 个 物理 节点 对 应 哈 希 环 上 的 多 个 虚拟 节点 ， 且 虚拟 节点 分 布 在 环 中 各 个 位 置 ， 进 行 数据 
均衡 的 时 候 , 会 从 其 他 物理 节点 接受 总 量 相当 的 负载 , 并 且 只 涉及 全 环 部 分 虚拟 节点 的 数据 迁移 ， 
可 以 在 减少 迁移 数据 量 的 条 件 下 ， 达 到 各 物理 节点 负载 均衡 的 目的 。 

3. 容错 以 及 数据 的 高 可 用 

Dynamo 通过 对 数据 进行 见 余 存 放 来 提高 数据 访问 的 并 发 性 和 保证 系统 的 高 可 用 ; 通过 基于 
gossip 机 制 的 异步 复制 技术 完成 副本 同步 ; 通过 客户 端 采用 Quorum 算法 解决 多 副本 带 来 的 一 致 
性 问题 。 即 使 用 所 谓 的 (N，R，W) 模型 ,其 中 NN 代表 系统 中 每 条 记录 的 副本 数 ，W 代表 每 次 
记录 成 功 的 写 操作 最 少 需要 参与 的 副本 数 ，R 代表 每 次 记录 成 功 的 读 请 求 最 少 需要 读 取 的 副本 
数 。 保 证 W+R>N 就 能 够 保证 数据 的 一 致 性 。 因 为 W+R>N 时 读 写 总 会 有 交集 ， 最 少 有 W 十 R 
一 N 个 读 请 求 落 到 被 写 的 副本 上 ， 可 以 利用 向 量 时 钟 〈vector clock) 技术， 跟踪 数据 记录 在 不 同 
机 器 上 的 版 本 变化 , 以 确保 当 多 个 读 请 求 结果 返回 不 一 致 时 , 能 够 根据 版 本 信息 得 出 正确 的 结果 。 
Dynamo 的 这 种 做 法 是 一 种 折衷 ， 即 为 了 同时 保证 读 和 写 的 效率 ， 写 操作 不 要 求 绝对 同步 ， 而 把 
不 同步 可 能 产生 的 后 果 推 给 了 读 操 作 。 

Dynamo 的 副本 读 写 策略 非常 灵活 ， 针 对 不 同 服务 的 SLA 需求， 提供 不同 程度 的 定制 策略 。 
通过 配置 参数 N、W 和 R 以 满足 不 同 访问 需求 的 各 种 场景 。 比 如 对 于 写 多 读 少 的 操作 , 可 将 W 配 
低 ，R 配 高 ， 对 于 写 少 读 多 的 操作 ， 则 可 将 W 配 高 ，R 配 低 。 提 供 低 延 时 读 操作 的 同时 ， 保 证 
用 户 请 求 “ 总 是 可 写 ”。 

为 了 保证 系统 容错 性 能 ， 系 统 中 各 节点 通过 gossip 机 制 进行 交互 以 确认 节点 的 活动 状态 ， 进 
行 失效 侦 测 ， 利 用 多 副本 机 人 制 保证 系统 可 用 性 。 对 于 临时 失效 和 永久 失效 的 情况 ，Dynamo 采用 
不 同 的 策略 来 容忍 失效 的 发 生 。 在 临时 失效 〈 网 络 分 区 等 ) 发 生 时 ， 系 统 通过 寻找 一 台 可 用 节点 ， 
将 数据 临时 写 在 其 上 ， 待 故障 恢复 后 ， 临 时 表 中 的 数据 会 自动 写 回 原 目的 地 。 这 样 ， 当 临时 故障 
出 现时 ， 保 证 用 户 总 处 于 可 写 的 状态 。 而 对 于 永久 失效 〈 比 如 磁盘 损坏 等 ) ， 则 需要 通过 副本 进 
行 数据 恢复 。Dynamo 利用 Merkle 树 来 保证 节点 失效 后 副本 的 同步 : 系统 中 每 个 节点 都 为 每 个 
键 范围 (key range) 维护 一 个 独立 的 Merkle 树 ， 当 两 个 节点 不 一 致 时 《〈 如 一 个 节点 发 生 过 一 段 
时 间 的 死机 ) ， 通 过 gossip 机 制 对 比 各 自 的 Merkle 树 ， 快 速 定位 不 一 致 的 数据 项 来 进行 数据 同 
步 。 


4. 写 操作 高 可 用 


Dynamo 中 ， 最 重要 的 是 要 保证 写 操作 的 高 可 用 性 ， 即 Always Writeable， 这 样 就 不 可 避免 地 
牺牲 掉 数 据 的 一 致 性 。 如 上 所 述 ，Dynamo 中 并 没有 对 数据 做 强 一 致 性 要 求 ， 而 是 采用 最 终 一 致 
性 。 结 合 上 述 的 数据 副本 技术 ， 可 以 看 出 ， 若 不 保证 各 个 副本 的 强 一 致 性 ， 则 用 户 在 读 取 数 据 的 
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时 候 很 可 能 读 到 的 不 是 最 新 的 数据 。Dynamo 中 将 数据 的 增加 或 删除 这 种 操作 都 视 为 一 种 增加 操 
作 , 即 每 一 次 操作 的 结果 都 作为 一 份 全 新 的 数据 保存 , 这 样 也 就 造成 了 一 份 数 据 会 存在 多 个 版 本 ， 
分 布 在 不 同 的 节点 上 。 这 种 情况 类 似 于 版 本 管理 中 的 多 份 副 本 同时 有 多 人 在 修改 。 多 数 情况 下 ， 
系统 会 自动 合并 这 些 版 本 ， 一 旦 合并 尝试 失败 ， 那 么 冲突 就 交 给 应 用 层 来 解决 。 这 时 系统 表现 出 
来 的 现象 就 是 ， 一 个 GET (KEY) 操作 ， 返 回 的 不 是 单一 的 数据 ， 而 是 一 个 多 版 本 的 数据 列表 ， 
由 用 户 决定 如 何 合并 。 这 其 中 的 关键 技术 就 是 Vector Clock。 

一 个 Vector Clock 可 以 理解 为 一 个 < 节点 编号 ， 计 数 器 > 对 的 列表 。 每 一 个 版 本 的 数据 都 会 带 
上 一 个 Vector Clock。 通 过 对 比 两 份 不 同 数据 的 Vector Clock 就 能 发 现 它们 的 关系 。 所 以 应 用 层 在 
读 取 数 据 的 时 候 ， 系 统 会 连带 这 Vector Clock 一 同 返回 ， 在 操作 数据 的 时 候 也 需要 带 上 数据 的 
Vector Clock 一 同 提交 。 大 致 流程 如 图 2.10 所 示 。 


Write 
handled by Sx 
DI1([Sx,1]) 
Write 
handled by Sx 
D2([Sx2]) 
Write Write 
handled by Sy handled by Sz 
D3([Sx,2],[Sy,1]) D4([Sx,2],[Sz,1]) 
Reconciled 
And written by Sx 
D5([Sx,3],[Sy,1],[Sz,1]) 


图 2.10 “Vector Clock 流程 图 


5. 一 个 正常 的 GET 和 SET 流程 

之 前 也 说 过 , Amazon 在 设计 组 件 的 时 候 采 用 的 是 “一 切 皆 服务 ”的 原则 。Dynamo 也 不 例外 ， 
应 用 可 以 通过 两 种 方式 使 用 Dynamo: 1) 通过 一 个 应 用 路 由 层 转发 请 求 到 对 应 Dynamo 节点 。2) 
通过 连接 Dynamo 的 API 到 自己 程序 中 使 用 。 两 种 方式 各 有 优 劣 。 负 责 处 理 读 写 请 求 的 Dynamo 
节点 在 系统 中 称 为 Coordinator， 一 般 是 之 前 提 到 的 Preference List 中 的 第 一 台 节 点 。 如 果 不 再 这 
个 List 中 的 机 器 收 到 了 读 写 请 求 ， 它 会 将 这 个 请 求 转发 到 在 List 中 的 机 器 上 。 

Dynamo 中 一 共 涉 及 三 个 重要 的 参数 ， 其 中 N， 代 表 数 据 的 副本 数 ， 之 前 已 经 说 过 了 。 另 外 
还 有 W 和 R, 分别 表 示 : 一 次 写 操作 , 最 小 必须 写成 功 节点 数 ; 一 次 读 操 作 ， 最 小 读 成 功 节点 数 。 
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另外 要 求 W + R> N。 设 计 这 两 个 参数 主要 是 出 于 性 能 考虑 ， 不 然 可 以 直接 令 W = R= N。 读 数 
据 时 ， 只 要 有 除了 Coodinator 之 外 的 R-1 个 节点 返回 了 数据 ， 就 算是 读 成 功 〈 此 时 可 能 返回 多 个 
版 本 的 数据 )。 同 理 ， 写 数据 时 ， 只 要 有 除了 Coordinator 之 外 的 W-1 个 节点 写 入 成 功 ， 就 算数 据 
写 入 成 功 。 


6. 故障 处 理 


故障 检测 和 处 理 往往 都 是 分 布 式 系统 的 重点 和 难点 ， 尤 其 是 对 于 像 Dynamo 这 种 对 可 用 性 要 
求 很 高 的 系统 。 上 边 说 了 , 通过 设 定 N、W 和 R 参数 来 保证 读 写 的 正确 。 一 旦 出 现 读 写 失败 的 情 
况 ， 都 会 触发 故障 处 理 机 制 。Dynamo 中 将 故障 分 为 两 类 ， 一 类 是 临时 性 的 故障 ， 另 一 类 是 持久 
的 故障 ， 分 别 对 应 两 种 不 同 的 处 理 方式 。 如 图 2.11 所 示 。 


GT 人 


\ 
\ 
\ 
Node B,C and 
D store keys in 
; range(A.B) 


\ 1 including k 
\ 


2.11 Dynamo 故障 处 理 


以 N=3 为 例 ， 如 果 在 一 次 写 操作 时 发 现 节点 A 宕 机 了 ， 那 么 本 应 该 存在 A 上 的 副本 就 会 发 
送 到 D 上 ， 同 时 在 D 中 会 记录 这 个 副本 的 元 信息 (MetaData)。 其 中 有 个 标示 表明 这 份 数据 是 本 
应 该 存在 A 上 的 ， 一 旦 节点 D 之 后 检测 到 A 从 故障 中 恢复 了 ，D 就 会 将 这 个 本 属于 A 的 副本 回 
传 给 A， 之 后 删除 这 份 数据 。Dynamo 中 称 这 种 技术 为 Hinted Handoff。 另 外 为 了 应 对 整个 机 房 掉 
线 的 故障 ，Dynamo 中 应 用 了 一 个 很 巧妙 的 方案 。 之 前 说 过 Preference List， 每 次 读 写 都 会 从 这 个 
列表 中 取出 R 或 W 个 节点 。 那 么 只 要 在 这 个 列表 生成 的 时 候 ， 让 其 中 的 节点 是 分 布 于 不 同 机 房 
的 ， 数 据 自然 就 写 到 了 不 同 机 房 的 节点 上 。 

Hinted Handoff 的 方式 在 少量 的 或 是 短暂 的 机 器 故障 中 表现 很 好 ， 但 是 在 某 些 情况 下 仍然 会 
导致 数据 丢失 。 如 上 所 说 ， 如 果 节 点 D 发 现 A 重新 上 线 了 ,会 将 本 应 该 属于 A 的 副本 回 传 过 去 ， 
这 期 间 D 发 生 故 障 就 会 导致 副本 丢失 。 为 了 应 对 这 种 情况 ，Dynamo 中 应 用 了 基于 Merkle Tree 的 
Anti-Entrpy 系统 。 
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2.4.3 BigTable 的 开源 实现 HBase 


HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 利 用 HBase 技术 可 在 
廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 .HBase 是 Google Bigtable 的 开源 实现 ,类 似 Google 
Bigtable 利用 GFS 作为 其 文件 存储 系统 ，HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 ， 如 图 
2.12 所 示 。Google 运行 MapReduce 来 处 理 Bigtable 中 的 海量 数据 ，HBase 同样 利用 Hadoop 
MapReduce 来 处 理 HBase 中 的 海量 数据 Google Bigtable 利用 Chubby 作为 协同 服务 ，HBase 利 
用 Zookeeper 作为 对 应 。 图 2.12 描述 了 Hadoop EcoSystem 中 的 各 层 系 统 ， 其 中 HBase 位 于 结构 
化 存储 层 , Hadoop HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 , Hadoop MapReduce 为 HBase 
提供 了 高 性 能 的 计算 能 力 ，Zookeeper 为 HBase 提供 了 稳定 服务 和 failover 机 制 。 
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(Hadoop Distributed File System) 





图 2.12 Hadoop 的 生态 系统 


此 外 ,Pig 和 Hive 还 为 HBase 提供 了 高 层 语言 支持 , 使 得 在 HBase 上 进行 数据 统计 处 理 变 得 
非常 简单 -Sqoop 则 为 HBase 提供 了 方便 的 RDBMS 数据 导入 功能 , 使 得 传统 数据 库 数 据 向 HBase 
中 迁移 变 得 非常 方便 。 

1. HBase 的 集群 架构 

由 于 安装 HBase 是 需要 Hadoop 环境 的 ， 因 此 HBase 事实 上 是 搭建 在 Hadoop 集群 中 的 。 事 
实 上 ，HBase 中 的 数据 是 以 文件 的 形式 存在 于 HDFS 中 的 ， 从 集群 结构 上 讲 ， 也 是 主 从 结构 ， 由 

-个 主 服务 器 和 多 个 从 属 服务 器 组 成 。 

如 图 2.13 为 HBase 的 集群 组 成 。 前 面 已 经 介绍 过 ， 在 HBase 中 ， 主 服务 器 叫做 Master， 从 
属 服务 器 命名 为 RegionServer。Master 是 整个 系统 的 入 口 ， 系 统 启 动 时 会 由 Master 将 数据 库 中 表 
的 子 表 Region 分 配 到 各 个 RegionServer 上 ， 并 维护 Region 分 配 表 ， 当 客户 端的 请 求 到 达 时 ， 由 
Master 处 理 并 分 配 到 具体 的 RegionServer， 在 此 过 程 中 ，Master 会 保持 与 各 个 RegionServer 的 连 
接 ， 并 监控 其 运行 情况 ， 在 分 配 客 户 端 请 求 时 保持 集群 负载 平衡 。HRegionServer 则 管理 着 一 组 
Region 的 对 象 HRegion， 并 直接 处 理 来 自 客 户 端的 读 写 操作 等 。 
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RegionServer RegionServer RegionServer 


























图 2.13 HBase 集群 


2. HBase 的 系统 架构 


HBase 的 集群 并 不 是 只 有 Master 和 RegionServer 就 能 工作 的 ， 为 了 支撑 HBase 的 正常 运行 ， 
事实 上 HBase 也 有 它 自己 的 生态 群 .读者 可 以 通过 划分 层次 的 方式 进一步 认识 HBase 的 系统 架构 。 

图 2.14 给 出 了 HBase 的 系统 架构 。 HBase 的 集群 结构 处 于 服务 层 , HBase 客户 端 处 于 应 用 层 ， 
而 分 布 式 文件 系统 和 分 布 式 锁 服务 则 处 于 支撑 层 。 从 各 层 关系 来 看 ， 支 撑 层 向 服务 层 提供 必要 的 
底层 服务 支持 ， 例 如 HDFS 向 HRegionServer 提供 数据 持久 化 ， 分 布 式 锁 机 制 则 协调 集群 调度 、 
管理 HMaster 节点 等 ， 服 务 层 则 向 应 用 层 提供 业务 逻辑 处 理 服务 ，HBase 向 客户 端 提供 的 服务 调 
用 接口 主要 是 客户 端 API， 应 用 层 的 客户 端 可 以 调用 客户 端 API 实现 特定 应 用 。 
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2.14 HBase 的 系统 架构 


细心 的 读者 会 发 现 该 图 中 没有 出 现 元 数据 表 -ROOT- 和 .META.， 其 实 这 两 个 表 也 是 在 HBase 
集群 启动 时 分 配 的 , 它们 也 被 当做 Regions 分 配 到 HRegionServer 来 管理 , 所 以 没有 特别 标注 出 来 。 

支撑 层 的 HDFS 对 于 HBase 而 言 是 不 可 或 缺 的 ，HBase 本 身 不 会 存储 数据 ， 表 中 的 数据 都 需 
要 以 文件 的 方式 持久 化 到 分 布 式 文件 系统 中 。 而 ZooKeeper 主要 是 为 了 解决 HMaster 的 单 点 失效 
问题 , 当 启 动 多 个 HMaster 时, 由 ZooKeeper 保 证 总 有 一 个 Master 在 运行 ,因此 没有 配置 ZooKeeper 
的 HBase 仍然 是 可 以 使 用 的 ， 但 要 明确 认识 到 单 点 失效 所 带 来 的 风险 。 
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2.4.4 MongoDB 

MongoDB 是 一 个 基于 分 布 式 文件 存储 的 数据 库 ， 由 C++ 语言 编写 。 虽 在 为 Web 应 用 提供 可 
扩展 的 高 性 能 数据 存储 解决 方案 。MongoDB 是 一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ， 
是 非 关系 数据 库 当 中 功能 最 丰富 、 最 像 关系 数据 库 的 。 它 支 持 的 数据 结构 非常 松散 ， 是 类 似 json 
的 bson 格式 ， 因 此 可 以 存储 比较 复杂 的 数据 类 型 。MongoDB 最 大 的 特点 是 它 支持 的 查询 语言 非 
常 强大 ， 其 语法 有 点 类 似 于 面向 对 象 的 查询 语言 ， 几 乎 可 以 实现 类 似 关 系数 据 库 单 表 查 询 的 绝 大 
部 分 功能 ， 而 且 还 支持 对 数据 建立 索引 。 

MongoDB 主要 特性 有 : 面向 文档 存储 、 支 持 完全 索引 、 高 可 靠 性 、 自 动 分 片 支持 云 级 扩展 
性 、 查 询 记录 分 析 、 快 速 就 地 更 新 、 支 持 Map/Reduce、 提 供 分 布 式 文件 系统 GridFS、 商 业 支持 。 
除 此 之 外 ，MongoDB 还 具有 模式 自由 、 支 持 动态 查询 、 支 持 数据 复制 与 故障 恢复 、 使 用 高 效 的 
二 进 制 数据 存储 、 包 括 大 型 对 象 、 支 持 非常 多 的 语言 、 文 件 存储 格式 为 BSON。 

MongoDB 的 主要 目标 是 在 键 / 值 存储 方式 与 传统 的 RDBMS 系统 之 间架 起 一 座 桥梁 , 集 两 者 
的 优势 于 一 身 。MongoDB 适合 用 于 网 站 数据 : MongoDB 非常 适合 实时 的 插入 、 更 新 与 查询 ， 并 
具备 网 站 实时 数据 存储 所 需 的 复制 及 高 度 伸缩 性 ， MongoDB 适合 用 于 缓存 : 由 于 性 能 很 高 ， 
MongoDB 也 适合 作为 信息 基础 设施 的 缓存 层 , 在 系统 重启 之 后 ， 由 MongoDB 搭建 的 持久 化 缓存 
层 可 以 避免 下 层 的 数据 源 过 载 ，MongoDB 适合 用 于 大 尺寸 、 低 价值 的 数据 ， 使 用 传统 的 关系 型 
数据 库存 储 一 些 数据 时 可 能 会 比较 昂贵 ， 在 此 之 前 ， 很 多 时 候 程序 员 往 往 会 选择 传统 的 文件 进行 
存储 ; MongoDB 适合 用 于 高 伸缩 性 的 场景 ，MongoDB 非常 适合 由 数 十 或 数 百 台 服务 器 组 成 的 数 
据 库 。MongoDB 的 路 线 图 中 已 经 包含 对 MapReduce 引擎 的 内 置 支持 ， 用 于 对 象 及 JSON 数据 的 
存储 ，MongoDB 的 BSON 数据 格式 非常 适合 文档 化 格式 的 存储 及 查询 。 

MongoDB 的 使 用 也 会 有 一 些 限制 。MongoDB 不 适合 高 度 事 务 性 的 系统 ， 例 如 银行 或 会 计 系 
统 。 传 统 的 关系 型 数据 库 目前 还 是 更 适用 于 需要 大 量 原子 性 复杂 事务 的 应 用 程序 。MonogoDB 不 
适用 于 传统 的 商业 智能 应 用 , 针对 特定 问题 的 BI 数据库 会 产生 高 度 优化 的 查询 方式 。 对 于 此 类 应 
用 ， 数 据 仓库 可 能 是 更 合适 的 选择 。 


1. MongoDB 数据 文件 内 部 结构 


MongoDB 在 数据 存储 上 按 命名 空间 来 划分 ， 一 个 Collection 是 一 个 命名 空间 ， 一 个 索引 也 是 
一 个 命名 空间 。 如 图 2.15 所 示 。 


@ 同一 个 命名 空间 的 数据 被 分 成 很 多 个 Extent，Extent 之 间 使 用 双向 链表 连接 。 

e@ 在 每 一 个 Extent 中 ,保存 了 具体 每 一 行 的 数据 ， 这 些 数 据 也 是 通过 双向 链接 来 连接 的 。 
每 一 行 数据 存储 空间 不 仅 包 括 数据 占用 空间 ,还 可 能 包含 一 部 分 附加 空间 ， 这 使 得 在 数据 
Update 变 大 后 可 以 不 移动 位 置 。 

索引 以 BTree 结构 实现 。 
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图 2.15 MongoDB 文件 内 部 结构 图 


2. MongoDB 数据 同步 
MongoDB 采用 Replica Sets 模式 的 同步 流程 ， 如 图 2.16 所 示 ， 本 流程 可 简要 描述 如 下 : 








图 2.16 MongoDB 数据 同步 
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黑色 虚线 箭头 表示 写 操作 可 以 写 到 Primary 上 , 然后 异步 同步 到 多 个 Secondary 上 。 黑 色 实 线 


箭头 表示 读 操作 可 以 从 Primary 或 Secondary 任意 一 个 中 读 取 。 各 个 Primary 与 Secondary 之 间 一 
直 保持 心跳 同步 检测 ， 用 于 判断 Replica Sets 的 状态 。 

如 图 2.17 所 示 , MongoDB 的 分 片 是 指定 一 个 分 片 key 来 进行 ,数据 按 范 围 分 成 不 同 的 chunk， 
每 个 chunk 的 大 小 有 限制 。 有 多 个 分 片 节 点 保存 这 些 chunk， 每 个 节点 保存 一 部 分 的 chunk。 每 一 
个 分 片 节点 都 是 一 个 Replica Sets， 这 样 可 保证 数据 的 安全 性 。 当 一 个 chunk 超过 其 限制 的 最 大 体 
积 时 ， 会 分 裂 成 两 个 小 的 chunk。 当 chunk 在 分 片 节点 中 分 布 不 均衡 时 ， 会 引发 chunk 迁移 操作 。 
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图 2.17 MongoDB 分 片 










































































3. 服务 器 角色 
前 面 讲 了 分 片 的 机 制 ， 下 面 是 具体 在 分 片 时 几 种 节点 的 角色 ， 如 图 2.18 所 示 。 
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2.18 MongoDB 分 片 机 制 





客户 端 访 问 路 由 节点 mongos 来 进行 数据 读 写 。config 服务 器 保存 了 两 个 映射 关系 ， 一 个 是 
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key 值 的 区 间 对 应 哪 一 个 chunk 的 映射 关系 ， 另 一 个 是 chunk 存在 哪 一 个 分 片 节点 的 映射 关系 。 
路 由 节点 通过 config 服务 器 获取 数据 信息 ， 通 过 这 些 信息 ， 找 到 真正 存放 数据 的 分 片 节点 进行 对 
应 操作 。 路 由 节点 还 会 在 写 操作 时 判断 当前 chunk 是 和 否 超出 限定 大 小 。 如 果 超 出 ， 就 分 列 成 两 个 
chunk。 对 于 按 分 片 key 进行 的 查询 和 update 操作 来 说 , 路 由 节点 会 查 到 具体 的 chunk 然后 再 进行 
相关 的 工作 。 对 于 不 按 分 片 key 进行 的 查询 和 update 操作 来 说 ，mongos 会 对 所 有 下 属 节点 发 送 
请 求 然后 再 对 返回 结果 进行 合并 。 





2.4.5 CouchDB 

CouchDB 是 一 个 开源 的 面向 文档 的 数据 库 管理 系统 ， 可 以 通过 RESTful JavaScript Object 
Notation (JSON) API 访问 。 术 语 “Couch” 是 “Cluster Of Unreliable Commodity Hardware” 的 
首 字母 缩写 ， 它 反映 了 CouchDB 的 目标 具有 高 度 可 伸缩 性 ， 提 供 了 高 可 用 性 和 高 可 靠 性 ， 即 使 
运行 在 容易 出 现 故 障 的 硬件 上 也 是 如 此 。CouchDB 最 初 是 用 C++ 编写 的 ， 但 在 2008 年 4 月 ， 这 
个 项 目 转移 到 Erlang OTP 平台 进行 容错 测试 。 

CouchDB 是 用 Erlang 开发 的 面向 文档 的 数据 库 系统 。CouchDB 不 是 一 个 传统 的 关系 数据 库 ， 
而 是 面向 文档 的 数据 库 ， 其 数据 存储 方式 有 点 类 似 Lucene 的 index 文件 格式 ，CouchDB 最 大 的 意 
义 在 于 它 是 一 个 面向 Web 应 用 的 新 一 代 存储 系统 , 事实 上 , CouchDB 的 口号 就 是 : 下 一 代 的 Web 
应 用 存储 系统 。 

CouchDB 有 以 下 特点 : 


@ CouchDB 是 分 布 式 的 数据 库 ， 它 可 以 把 存储 系统 分 布 到 n 台 物 理 的 节点 上 面 ， 并 且 很 好 
地 协调 和 同步 节点 之 间 的 数据 读 写 一 致 性 。 这 当然 也 得 靠 Erlang 无 与 伦比 的 并 发 特性 才 
能 做 到 。 对 于 基于 Web 的 大 规模 应 用 文档 应 用 ， 分 布 式 可 以 让 它 不 必 像 传统 的 关系 数据 
库 那 样 分 库 拆 表 ， 在 应 用 代码 层 进行 大 量 的 改动 。 

@ CouchDB 是 面向 文档 的 数据 库 ， 存 储 半 结构 化 的 数据 ， 比 较 类 似 lucene 的 index 结构 ， 特 
别 适 合 存储 文档 ， 因 此 很 适合 CMS、 电 话 本 、 地 址 本 等 应 用 ， 在 这 些 应 用 场合 ， 文 档 数 
据 库 要 比 关系 数据 库 更 加 方便 ， 性 能 更 好 。 

e@ CouchDB 支持 REST API, 可 以 让 用 户 使 用 JavaScript 来 操作 CouchDB 数据 库 ， 也 可 以 用 
JavaScript 编写 查询 语句 ， 我 们 可 以 想像 一 下 ， 用 AJAX 技术 结合 CouchDB 开发 出 来 的 
CMS 系统 会 是 多 么 简单 和 方便 。 


其 实 CouchDB 只 是 Erlang 应 用 的 冰山 一 角 ， 在 最 近 几 年 ， 基 于 Erlang 的 应 用 也 得 到 的 攻 勃 
的 发 展 ,特别 是 在 基于 Web 的 大 规模 、 分 布 式 应 用 领域 ， 几 乎 都 是 Erlang 的 优势 项 目 。CouchDB 
的 架构 图 如 图 2.19 所 示 。 


55 






























































三 接口 层 了 
| RSET | Thrift | MapReduce| | GETPUT | | 语言 特定 API | | SQL 子 集 | 
NW 
厂 数据 远 辑 模型 层 人 
Key-Value | Colunm Family | | Document | | Graph 
人 J 
数据 分 布 导 
Cap 支持。 | [支持 S 娄 如 中 心 | [wm 
J 
厂 数据 持久 层 ) 
共存 | [ems 











2.19 CouchDB 的 架构 图 


CouchDB 构建 在 强大 的 B- 树 储存 引擎 之 上 。 这 种 引擎 负责 对 CouchDB 中 的 数据 进行 排 
序 ， 并 提供 一 种 能 够 在 对 数 均 摊 时 间 内 执行 搜索 、 插 入 和 删除 操作 的 机 制 。CouchDB 将 这 个 引 
擎 用 于 所 有 内 部 数据 、 文 档 和 视图 。 

因为 CouchDB 数据 库 的 结构 独立 于 模式 ， 所 以 它 依赖 于 使 用 视图 创建 文档 之 间 的 任意 关 
系 ， 以 及 提供 聚合 和 报告 特性 。 使 用 Map/Reduce 计算 这 些 视 图 的 结果 ，Map/Reduce 是 一 种 使 
用 分 布 式 计算 来 处 理 和 生成 大 型 数据 集 的 模型 。Map/Reduce 模型 由 Google 引入 ， 可 分 为 Map 
和 Reduce 两 个 步骤 。 在 Map 步骤 中 ， 由 主 节点 接收 文档 并 将 问题 划分 为 多 个 子 问 题 。 然 后 将 
这 些 子 问题 发 布 给 工作 节点 ， 由 它 处 理 后 再 将 结果 返回 给 主 节点 。 在 Reduce 步骤 中 ， 主 节点 接 
收 来 自 工作 节点 的 结果 并 合并 它们 ， 以 获得 能 够 解决 最 初 问题 的 总 体 结果 和 答案 。 

CouchDB 中 的 Map/Reduce 特性 生成 键 / 值 对 ，CouchDB 将 它们 插入 到 B- 树 引擎 中 并 根据 
它们 的 键 进行 排序 。 这 就 能 通过 键 进行 高 效 查找 ， 并 且 提 高 B- 树 中 的 操作 的 性 能 。 此 外 ， 这 还 意 
味 着 可 以 在 多 个 节点 上 对 数据 进行 分 区 ， 而 不 需要 单独 查询 每 个 节点 。 

传统 的 关系 数据 库 管理 系统 有 时 使 用 锁 来 管理 并 发 性 ， 从 而 防止 其 他 客户 机 访问 某 个 客户 机 
正在 更 新 的 数据 。 这 就 防止 多 个 客户 机 同时 更 改 相同 的 数据 ， 但 对 于 多 个 客户 机 同时 使 用 一 个 系 
统 的 情况 ， 数 据 库 在 确定 哪个 客户 机 应 该 接收 锁 并 维护 锁 队列 的 次 序 时 会 遇 到 困难 ， 这 很 常见 。 
在 CouchDB 中 没有 锁 机 制 ， 它 使 用 的 是 多 版 本 并 发 性 控制 (Multiversion Concurrency Control， 
MVCC) ， 向 每 个 客户 机 提供 数据 库 的 最 新 版 本 的 快照 。 这 意味 着 在 提交 事务 之 前 ， 其 他 用 户 不 
能 看 到 更 改 。 许 多 现代 数据 库 开始 从 锁 机 制 前 移 到 MVCC, 包括 Oracle (V7 之 后 ) 和 Microsofte 
SQL Server 2005 及 更 新 版 本 。 














2.4.6 Redis 
Redis 是 一 款 开源 的 、 高 性 能 的 键 - 值 存储 (key-value store)。 它 常 被 称 作 是 一 款 数 据 结 构 服 务 
器 〈data structure server)。Redis 的 键 值 可 以 包括 字符 串 (strings)、 哈 希 (hashes)、 列 表 (lists)、 
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集合 (sets) 和 有 序 集合 (sorted sets) 等 数据 类 型 。 对 于 这 些 数据 类 型 ， 可 以 执行 原子 操作 。 
例如 : 对 字符 串 进行 附加 操作 (append); 递增 哈 希 中 的 值 ; 向 列表 中 增加 元 素 ; 计算 集合 的 交集 、 
并 集 与 差 集 等 。 

为 了 获得 优异 的 性 能 ，Redis 采用 了 内 存 中 〈in-memory) 数据 集 (dataset) 的 方式 。 根 据 使 
用 场景 的 不 同 ， 可 以 每 隔 一 段 时 间 将 数据 集 转 存 到 磁盘 上 来 持久 化 数据 ， 或 者 在 日 志 尾 部 追加 每 
一 条 操作 命令 。 

Redis 同样 支持 主 从 复制 (master-slave replication)， 并 且 具 有 非常 快速 的 非 阻塞 首次 同步 
Cnon-blocking first synchronization)、 网 络 断 开 自动 重 连 等 功能 。 同时 Redis 还 具有 其 他 一 些 特性 ， 
其 中 包括 简单 的 check-and-set 机 制 、pub/sub 和 配置 设置 等 ， 以 便 使 得 Redis 能 够 表现 得 更 像 缓存 
(cache)。 

Redis 还 提供 了 丰富 的 客户 端 ， 以 便 支 持 现 阶 段 流行 的 大 多 数 编程 语言 。 详 细 的 支持 列表 可 
以 参看 Redis 官方 文档 : http://redis.io/clients。Redis 自身 使 用 ANSIC 来 编写 ， 并 且 能 够 在 不 产生 
外 部 依赖 (external dependencies) 的 情况 下 运行 在 大 多 数 POSIX 系统 上 , 如 Linux、*BSD、OS X 
和 Solaris 等 。 

redis 提供 的 数据 类 型 有 : string，hash，list，set 及 zset (sorted set)。 


1. string ( 字符 串 ) 


string 是 最 简单 的 类 型 , 可 以 理解 成 与 Memcached 一 模 一 样 的 类 型 , 一 个 key 对 应 一 个 value， 
其 上 支持 的 操作 与 Memcached 的 操作 类 似 。 但 它 的 功能 更 丰富 。redis 采用 结构 sdshdr 和 sds 封装 
了 字符 串 ， 字 符 串 相关 的 操作 实现 在 源 文件 sds.h/sds.c 中 。sdshdr 数据 结构 定义 如 下 : 








2. list ( 双向 链表 ) 


list 是 一 个 链表 结构 ， 主 要 功能 是 push、pop、 获 取 一 个 范围 的 所 有 值 等 。 操 作 中 key 理解 为 
链表 的 名 字 。 对 list 的 定义 和 实现 在 源 文件 adlist.h/adlist.c 中 ， 相 关 的 数据 结构 定义 如 下 : 
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3.dict (hash 表 ) 
set 是 集合 ， 和 数学 中 的 集合 概念 相似 ， 对 集合 的 操作 有 添加 删除 元 素 、 对 多 个 集合 求 交 并 差 


等 操作 。 操 作 中 key 理解 为 集合 的 名 字 。 在 源 文件 dict.h/dict.c 中 实现 了 hashtable 的 操作 ， 数 据 结 
构 的 定义 如 下 : 
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dict 中 table 为 dictEntry 指针 的 数组 ， 数 组 中 每 个 成 员 为 hash 值 相 同 元 素 的 单 向 链表 。set 是 在 
dict 的 基础 上 实现 的 ， 指 定 了 key 的 比较 函数 为 dictEncObjKeyCompare， 若 key 相等 则 不 再 插入 。 


4. zset (排序 set ) 


zset 是 set 的 一 个 升级 版 本 ， 它 在 set 的 基础 上 增加 了 一 个 顺序 属性 ， 这 一 属性 在 添加 修改 元 
素 的 时 候 可 以 指定 ， 每 次 指定 后 ，zset 会 自动 重新 按 新 的 值 调整 顺序 。 可 以 理解 为 有 两 列 的 mysql 
表 ， 一 列 存 value， 一 列 存 顺序 。 操 作 中 key 理解 为 zset 的 名 字 。 





zset 利用 dict 维护 key -> value 的 映射 关系 ， 用 zsl (zskiplist) 保存 value 的 有 序 关 系 。zsl 实 
际 是 又 数 不 稳 定 的 多 又 树 ， 每 条 链 上 的 元 素 从 根 节点 到 叶子 节点 保持 升序 排序 。 

redis 使 用 了 两 种 文件 格式 : 全 量 数据 和 增 量 请 求 。 全 量 数 据 格式 是 把 内 存 中 的 数据 写 入 磁盘 ， 
便于 下 次 读 取 文件 进行 加 载 ， 增 量 请 求 文 件 则 是 把 内 存 中 的 数据 序列 化 为 操作 请 求 ， 用 于 读 取 文 
件 进行 replay 得 到 数据 ， 序 列 化 的 操作 包括 SET、RPUSH、SADD、ZADD。 

redis 的 存储 分 为 内 存 存储 磁盘 存储 和 log 文件 三 部 分 配置 文件 中 有 三 个 参数 对 其 进行 配置 。 


日 save seconds updates，save 配置 ， 指 出 在 多 长 时 间 内 ， 有 多 少 次 更 新 操作 ， 就 将 数据 同步 
到 数据 文件 。 这 个 可 以 多 个 条 件 配合 ， 比 如 默认 配置 文件 中 的 设置 ， 就 设置 了 三 个 条 件 。 


eappendonly yes/no ，appendonly 配置 ， 指 出 是 否 在 每 次 更 新 操作 后 进行 日 志 记 录 ， 如 果 不 
开启 ， 可 能 会 在 断 电 时 导致 一 段 时 间 内 的 数据 丢失 。 因 为 redis 本 身 同步 数据 文件 是 按 上 


面 的 save 条 件 来 同步 的 ， 所 以 有 的 数据 会 在 一 段 时 间 内 只 存在 于 内 存 中 。 


® appendfsync no/always/everysec ， 


秒 同 步 一 次 。 


2.4.7 ”Hypertable 


Hypertable 是 一 个 正在 进行 中 的 开源 项 目 ， 以 google 的 bigtable 论文 为 基础 指导 ， 使 用 C++ 


语言 实现 。 


Hypertable 的 目标 是 为 了 解决 大 并 发 ， 大 数据 量 的 数据 库 需求 。 目 前 的 Hypertable 不 支持 事 
物 ， 也 不 支持 关联 查询 ， 对 单条 查询 的 响应 时 间 可 能 也 不 如 传统 数据 库 。 


HyperTable 的 优点 如 下 : 


日 并 发 性 : 可 以 处 理 大 量 并 发 请 求 ， 管 理 大 量 数据 。 
e 规模 : 可 扩 缩 性 好 ， 扩 容 只 需要 增加 集群 中 的 机 器 。 


@ 可 用 性 : 任何 节点 失效 既 不 会 造成 系统 瘫 疾 也 不 会 丢失 数据 , 在 集群 节点 足够 的 情况 下 ， 


并 发 量 和 数据 量 对 性 能 基本 没有 影响 。 


1. Hypertable 的 总 体 架 构 


appendfsync 配置 ，no 表示 等 操作 系统 进行 数据 缓存 同 
步 到 磁盘 ，always 表示 每 次 更 新 操作 后 手动 调用 fsync() 将 数据 写 到 磁盘 ，everysec 表示 每 


图 2.20 是 Hypertable 项 目 文档 中 的 总 体 架构 图 。 简 单 介绍 一 下 各 个 组 成 部 分 。 
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图 2.20 Hypertable 总 体 架构 图 
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(1) Hyperspace: 可 以 认为 是 一 个 文件 存储 系统 ， 用 来 存储 一 些 元 数据 信息 ， 同 时 提供 一 些 
锁 的 功能 。 在 google 的 bigtable 论文 中 ， 这 个 模块 叫做 Chubby， 是 采用 一 个 小 集群 来 实现 的 。 在 
Hypertable 目前 的 版 本 中 ， 这 是 一 台 单 台 服 务 器 ， 内 部 采用 Berkeley DB 实现 。 单 点 服务 器 制造 
了 一 个 系统 瓶颈 ， 这 人 台 服 务 器 不 能 失效 ， 所 以 在 将 来 的 版 本 中 ， 这 个 模块 将 采用 类 似 Chubby 的 
集群 实现 。 

(2) Master: Master 有 两 个 主要 责任 。 一 是 管理 元 操作 ， 比 如 建 表 ， 更 改 表 结 构 等 。 二 
是 管理 RangeServer, 检测 RangeServer 的 工作 状态 , 调整 RangeServer 服务 的 数据 以 实现 负 
载 均衡 。 

(3) RangeServer: RangeServer 是 真正 提供 服务 的 单元 ， 每 个 RangeServer 管理 一 张 表 
的 部 分 数据 ,在 Hypertable 系统 中 , 表 按 row range 分 割 为 许多 tablet, 这 些 tablet 由 range server 
维护 ， 一 个 range server 主机 可 以 维护 多 个 tablet。Rangeserver 负责 处 理 所 有 的 该 row range 的 
读 写 操作 。 

(4) DFS Broker: 它 的 主要 作用 是 使 用 底层 的 文件 系统 来 完成 Hypertable 对 文件 系统 的 请 
求 。 Hypertable 对 文件 系统 的 使 用 有 一 个 很 简单 的 接口 ， 只 需要 文件 系统 提供 几 个 很 简单 的 操作 。 
Hypertable 的 读 写 文件 等 操作 都 以 socker 形式 向 DFS Broker 发 出 请 求 来 完成 。 这 样 对 于 不 同 的 
文件 系统 ， 只 要 实现 一 个 DFS Broker 就 可 以 与 Hypertable 一 起 工作 了 。 

(5) 存储 引擎 : Hypertable 设计 是 为 了 使 用 分 布 式 存储 系统 , 但 是 当然 也 可 以 使 用 本 地 文件 
系统 。 存 储 引 擎 只 需要 提供 最 简单 的 几 个 功能 就 可 以 与 Hypertable 协同 工作 了 。 

2. 存储 结构 介绍 

考虑 到 大 部 分 分 布 式 文件 系统 对 文件 追加 容易 修改 困难 的 特点 ，Hypertable 采用 了 只 追加 不 
修改 的 文件 存储 方式 。 任 何 对 原来 记录 的 修改 都 是 在 后 面 添加 一 条 新 的 记录 。 在 读 取 的 时 候 可 以 
指定 读 取 的 版 本 数 。 当 每 次 只 读 取 最 新 版 本 的 时 候 ， 看 到 的 就 是 最 终结 果 。 一 个 range 在 存储 上 
是 一 系列 的 有 序 的 数据 块 。Hypertable 称 之 为 CellStore。 

CellStore 是 由 一 些 列 的 block 再 加 上 一 个 对 block 的 索引 以 及 一 些 查询 优化 信息 〈Bloom 
Filter) 组 成 ， 如 图 2.21 所 示 。 

首先 ， 一 个 CellStore 中 的 数据 是 按照 主键 排序 的 ， 其 次 ， 索 引 是 只 索引 到 block 的 。 举 一 个 
具体 的 例子 来 看 一 下 我 们 只 关注 block 和 索引 ， 忽 略 Bloom Filter 信息 文件 头 信息 等 )。 还 是 那 
个 id，name 两 个 列 的 表 。 我 们 现在 看 一 个 CellStore，id 从 0 到 400。 每 一 百 数据 为 一 个 block。 
那么 存储 起 来 好 像 是 图 2.21 所 示 的 样子 。 
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pl p2 p3 p4 
id-0.. id-101 .. id-201 id-301 id-0 Offset=pl 
id=-1 id=101 Offset=p2 
id=201 Offset=p3 
id-301 Offsetp4 
id=100 id=200 id=300 id=400 
block block block block index 


2.21 ”CellStore 示意 图 


一 个 range 收 到 查询 请 求 的 时 候 先 读 取 CellStore 中 的 索引 部 分 ， 这 样 可 以 定位 出 所 需要 的 数 
据 在 哪个 block 中 ， 然 后 读 取 相应 的 block 并 遍历 查找 所 需要 的 数据 。 一 般 一 个 block 的 大 小 为 
64KB。 因 为 所 有 插入 操作 其 实 都 是 在 内 存 中 进行 。 当 内 存 中 数据 达到 一 定 的 数量 的 时 候 才 持久 化 
成 上 面 的 形式 到 文件 系统 里 。 

随 着 数据 的 变化 ，Cell Store 在 逐渐 地 增加 ， 这 样 就 会 减 慢 查询 的 效率 。 为 了 解决 这 个 问题 ， 
需要 后 台 有 进程 合并 已 经 持久 化 的 Cell Store。 这 一 个 过 程 叫做 merging compaction(big table 术语 )。 
这 也 是 丢弃 无 用 记录 的 最 恰当 时 机 。 这 个 过 程 就 类 似 一 个 归并 排序 的 过 程 ， 如 图 2.22 所 示 。 


oe 
Scanner 


Memory 












Distributed File System 





Cell Store Cell Store Cell Store 








图 2.22 Cell Store 合并 


2.4.8 其 他 开源 NoSQL 数据 库 


Neo4j 
Neo4j (www.neo4j.org/) 是 一 个 风 入 式 ， 基 于 磁盘 的 、 支 持 完整 事务 的 Java 持久 化 引擎 ， 它 在 
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图 像 中 而 不 是 表 中 存储 数据 。Neo4j 提供 了 大 规模 可 扩展 性 ， 在 一 台 机 器 上 可 以 处 理 数 十 亿 节点 / 关 
系 /属性 的 图 像 ， 可 以 扩展 到 多 台 机 器 并 行 运行 。 相 对 于 关系 数据 库 来 说 ， 图 形 数据 库 善 于 处 理 大 量 
复杂 、 互 连接 、 低 结构 化 的 数据 ， 这 些 数据 变化 迅速 ， 需 要 频繁 查询 一 在 关系 数据 库 中 ， 这 些 查 
询 会 导致 大 量 的 表 连 接 , 因此 会 产生 性 能 上 的 问题 .Neo4j 重点 解决 了 拥有 大 量 连 接 的 传统 RDBMS 
在 查询 时 出 现 的 性 能 衰退 问题 。 通 过 围绕 图 形 进行 数据 建 模 , Neo4j 会 以 相同 的 速度 遍历 节点 与 边 ， 
其 遍历 速度 与 构成 图 形 的 数据 量 没有 任何 关系 。 此 外 ，Neo4j 还 提供 了 非常 快 的 图 形 算法 、 推 荐 系 
统 和 OLAP 风格 的 分 析 ， 而 这 一 切 在 目前 的 RDBMS 系统 中 都 是 无 法 实现 的 。 

Riak 

Riak (basho.com/riak/) 是 一 款 非常 适合 于 Web 应 用 程序 的 数据 库 ， 它 提供 了 去 中 心 化 的 
Key/Value 存储 、 灵 活 的 map/reduce 引擎 和 友好 的 HTTP/JSON 查询 接口 。 它 是 一 个 真正 的 容错 系 
统 , 不 会 出 现 单 点 故障 ,在 Riak 世界 中 ,没有 哪 台 机 器 是 特殊 的 或 属 核心 服务 器 ， 它 们 都 是 对 等 
的 。 

Oracle Berkeley DB 

Oracle Berkeley DB (http://www.oracle.conm/technetwork/cn/products/berkeleydb/overview/index.html) 
是 一 系列 开源 的 嵌入 式 数据 库 ， 使 开发 人 员 能 够 将 一 个 快速 、 可 伸缩 、 具 有 工业 级 别 的 可 靠 性 和 
可 用 性 的 事务 处 理 数 据 库 引擎 结合 进 他 们 的 应 用 程序 中 。 Berkeley DB 最 先是 由 伯克利 加 州 大 学 
为 了 移 除 受到 AT&T 限制 的 程式 码 ， 从 BSD 4.3 到 4.4 时 所 改写 的 软件 。Berkeley DB 运行 在 大 多 
数 的 操作 系统 中 ， 例 如 大 多 数 的 UNIX 系统 、Windows 系统 ， 以 及 实时 操作 系统 。 

Apache Cassandra 

Cassandra (cassandra.apache.org/) 是 一 款 高 可 扩展 性 第 二 代 分 布 式 数据 库 ， 属 于 混合 型 的 非 
关系 的 数据 库 ， 类 似 于 Google 的 BigTable， 支 持 的 数据 结构 非常 松散 ， 类 似 于 JSON 的 BJSON 
格式 ， 因 此 可 以 存储 比较 复杂 的 数据 类 型 。Cassandra 最 初 由 Facebook 开发 ， 后 转变 成 了 开源 项 
目 。 Cassandra 的 主要 特点 就 是 它 不 是 一 个 数据 库 ， 而 是 由 一 堆 数据 库 节 点 共同 构成 的 一 个 分 布 
式 网 络 服务 ， 对 Cassandra 的 一 个 写 操作 , 会 被 复制 到 其 他 节点 上 去 ， 对 Cassandra 的 读 操 作 ， 也 
会 被 路 由 到 某 个 节点 上 面 去 读 取 。 对 于 一 个 Cassandra 群集 来 说 ， 扩 展 性 能 是 比较 简单 的 事情 ， 
只 要 在 群集 里 面 添 加 节点 就 可 以 了 。Facebook、Digg、Twitter 和 Cisco 等 大 型 网 站 都 使 用 了 


Cassandra。 





Memcached 


Memcached (www.memcached.org/) 是 开源 的 分 布 式 cache 系统 ， 现 在 很 多 的 大 型 Web 应 用 
程序 包括 facebook、youtube、wikipedia、yahoo 等 都 在 使 用 memcached 来 支持 每 天 数 亿 级 的 页 面 
访问 。 通 过 把 cache 层 与 它们 的 Web 架构 集成 ， 应 用 程序 在 提高 了 性 能 的 同时 ， 还 大 大 降低 了 数 
据 库 的 负载 。 

Memcached 处 理 的 原子 是 每 一 个 key/value 对 ，key 会 通过 一 个 hash 算法 转化 成 hash-key, 便 
于 查找 、 对 比 以 及 做 到 尽 可 能 的 散 列 。 同时 , memcached 使 用 的 是 一 个 二 级 散 列 , 通过 一 张大 hash 
表 来 维护 。 
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Keyspace 


Keyspace (keyspacenet) 是 一 家 叫做 Scalien 的 创业 公司 开发 的 高 可 靠 key/value 存储 系 
统 ，Keyspace 强调 的 技术 点 是 高 可 靠 性 ， 有 以 下 一 些 特点 : 


Key/Value 存储 : 一 个 key/value 数据 存储 系统 ， 只 支持 一 些 基 本 操作 ， 如 SET(key, value) 
和 GET (key ) 等 。 

分 布 式 : 多 台 机 器 (nodes) 同 时 存储 数据 和 状态 ,彼此 交换 消息 来 保持 数据 一 致 ， 可 视 为 一 
个 完整 的 存储 系统 。 为 了 更 可 靠 ，Keyspace 推荐 使 用 奇数 个 nodes， 如 3、5、7 等 。 
数据 一 致 : 所 有 机 器 上 的 数据 都 是 同步 更 新 的 , 不 用 担心 得 到 不 一 致 的 结果 ，Keyspace 使 
用 著名 的 Paxos 分 布 式 算法 。 

元 余 : 所 有 机 器 (nodes) 保 存 相 同 的 数据 ， 整 个 系统 的 存储 能 力 取决 于 单 台 机 器 (node) 的 能 
为 : 
容错 : 如 果 有 少数 nodes 出 错 ， 比 如 重启 、 当 机 、 断 网 、 网 络 丢 包 等 各 种 fault/fail 都 不 
影响 整个 系统 的 运行 。 

高 可 靠 性 : 容错 、 宛 余 等 保证 了 Keyspace 的 可 靠 性 。 


MariaDB 

MariaDB (mariadb.org/) 是 一 个 向 后 兼容 的 ， 旨 在 替换 MySQL 数据 库 的 MySQL 分 支 ， 它 
包括 所 有 主要 的 开源 存储 引擎 ， 另 外 也 开发 了 属于 自己 的 Maria 存储 引擎 。MariaDB 是 由 原来 
MySQL 的 作者 Michael Widenius 创办 的 公司 所 开发 的 免费 开源 数据 库 服务 器 与 MySQL 相 比 
较 ，MariaDB 更 强 的 地 方 在 于 : 


Maria 存储 引擎 

PBXT 存储 引擎 
XtraDB 存储 引擎 
FederatedX 存储 引擎 
更 快 的 复制 查询 处 理 
线程 池 

更 少 的 警告 和 bug 
运行 速度 更 快 

更 多 的 Extensions (More index parts, new startup options etc) 
更 好 的 功能 测试 

慢 查 询 日 志 的 扩展 统计 
支持 对 Unicode 的 排序 


Drizzle 
Drizzle (www.drizzle.org/) 是 从 MySQL 衍生 出 来 的 一 个 数据 库 ， 但 它 的 目的 不 是 要 取代 
MySQL， 它 的 宗旨 是 构建 一 个 “更 精练 、 更 轻 量 、 更 快速 ”的 MySQL 版 本 ， 它 的 扩展 性 和 易 用 
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性 与 MySQL 相当 ， 但 为 了 提高 性 能 和 扩展 性 ， 它 从 原来 的 核心 系统 里 移 除了 部 分 功能 。Drizzle 
是 一 种 为 云 和 网 络 程序 进行 了 特别 优化 的 数据 库 , 它 是 为 在 现代 多 CPU/ 多 核 架 构 上 实现 大 规模 并 
发 而 设计 的 。 

HyperSQL 

HyperSQL (hsqldb.org/) 是 用 Java 编写 的 一 款 SQL 关系 数据 库 引擎 ， 它 的 核心 完全 是 多 线 
程 的 ， 支 持 双 向 锁 和 MVCC (多 版 本 并 发 控制 )， 几 乎 完整 支持 ANSL92 SQL， 支 持 常 见 数 据 类 
型 , 最 新 版 本 增加 了 对 BLOB 和 CLOB 数据 的 支持 , 最 高 支持 达 64TB 的 数据 量 。 同 时 , HyperSQL 
也 是 一 个 不 错 的 嵌入 式 数 据 库 。 

MonetDB 


MonetDB (www.monetdb.ore/Home) 是 一 个 高 性 能 数据 库 引擎 ， 主 要 用 在 数据 挖掘 、OLAP、 
GIS、XML Query、 文 本 和 多 媒体 检索 等 领域 。MonetDB 对 DBMS 的 各 个 层 都 进行 创新 设计 ， 如 
基于 生 直 分 片 的 存储 层 、 为 现代 CPU 优化 的 查询 执行 架构 、 自 动 和 自助 调整 索引 、 运 行 时 查询 优 
化 ， 以 及 模块 化 的 软件 架构 。MonetDB/SQL 是 MonetDB 提供 的 关系 数据 库 解 决 方案 ， 
MonetDB/XQuery 是 XML 数据 库 解 决 方案 , MonetDB Server 是 MonetDB 的 多 模型 数据 库 服务 器 。 

Persevere 

Persevere (www.persvrorg) 是 针对 Javascript 设计 的 基于 REST 的 JSON 数据 库 、 分 布 式 计 
算 、 持 久 对 象 映 射 的 框架 ， 提 供 独立 的 Web 服务 器 ， 主 要 用 于 设计 富 客 户 端 应 用 ， 可 以 用 在 任 
何 框架 和 客户 端 上 。Persevere Server 是 一 个 基于 Java/Rhino 的 对 象 存储 引擎 ， 在 交互 式 的 客户 端 
JavaScript 环境 中 提供 持久 性 的 JSON 数据 格式 。 

exXist-db 


eXist-db (exist-db.org) 是 使 用 XML 技术 构建 的 数据 库存 储 引 擎 ， 它 根据 XML 数据 模型 存 
储 XML 数据 ， 提 供 高 效 的 、 基 于 索引 的 XQuery 查询 。eXist-db 支持 许多 Web 技术 标准 ， 使 得 它 
非常 适合 Web 应 用 程序 开发 : 


XQuery 1.0 / XPath 2.0 /XSLT 1.0 (使 用 pache Xalan) 或 XSLT 2.0 

HTTP 接口 : REST，WebDAV，SOAP，XMLRPC，Atom 发 布 协议 

XML 数据 库 规范 : XMLDB，Xupdate，XQuery 更 新 扩展 

最 新 的 1.4 版 本 还 增加 了 基于 Apache Lucene 的 全 文 索引 轻 量 级 URL 重 写 和 MVC 框架 
以 及 对 XProc 的 支持 。eXist-db 与 XQuery 标准 高 度 兼容 (目前 XQTS 的 得 分 是 99.4%)。 





Gladius 

Gladius (freecode.com/projects/gladiusdb) 是 用 纯 PHP 编写 的 平面 文件 数据 库 引 擎 , 它 的 SQL 
语法 与 SQL92 的 一 个 子 集 兼容 ， 它 捆绑 了 一 个 轻 量 级 的 ADODB 驱动 。 

CloudStore 

CloudStore (gcloud.civilservice.gov.uk/cloudstore/)〔 以 前 叫做 Kosmos 文件 系统 ) 是 一 个 开源 
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的 高 性 能 分 布 式 文件 系统 ， 它 是 用 C++ 编写 的 ，CloudStore 可 以 和 Hadoop 以 及 Hypertable 集成 ， 
这 样 就 允许 应 用 程序 构建 在 那些 系统 上 ， 而 底层 数据 存储 无 颖 地 使 用 CloudStore。CloudStore 支 
持 Linux 和 Solaris， 主 要 用 来 存储 Web 日 志和 Web 疏 行 数据 。 

OpenQM 

OpenQM (www.openqm.org/) 是 唯一 一 款 同 时 有 商业 支持 和 免费 的 开源 多 值 数据 库 ， 基 于 
GPL 协议 发 布 ， 多 值 数据 库 对 NoSQL 运动 起 到 了 推动 作用 ， 它 自身 也 因 速度 快 ， 体 积 小 ， 比 关 
系数 据 库 便宜 而 得 到 了 认可 。 名 称 OpenQM 中 的 Open 表示 开源 版 本 ，QM 表示 商业 闭 源 QM 数 
据 库 。 商 业 版 本 支持 Windows、Linux (RedHat，Fedora，Debian，Ubuntu)、FreeBSD、Mac OS X 
和 Windows Mobile， 其 列表 价格 还 不 到 其 他 多 值 产品 的 15， 商 业 版 本 还 包括 一 个 GUI 管理 界面 
和 终端 模拟 器 ， 开 源 版 本 仅 包括 核心 多 值 数据 库 引 擎 ， 主 要 是 为 开发 人 员 准 备 的 。 

ScarletDME 


ScarletDME (https://www.ohloh.net/p/ScarletDME)》 也 是 一 个 开源 多 值 数据 库 ， 它 是 OpenQM 
的 社区 分 支 版 ， 最 初 由 Ladybridge 开发 ， 这 个 项 目 创立 于 2008 年 11 月 28 日 ， 它 既 在 独立 开发 
自己 的 功能 ， 也 在 为 OpenQM 贡献 代码 。 这 个 项 目 最 初 的 名 字 叫 做 Ladybridges GPL OpenQM， 
现在 正式 改 为 ScarletDME， 其 中 的 DME 是 Data Management Environment 〈 数 据 管理 环境 ) 的 首 
字母 缩写 。 

SmallSQL 

SmallSQL (www.smallsqlde) 是 一 个 100% 纯 Java 编写 的 轻 量 级 数据 库 ， 一 般 用 于 嵌入 式 领 
域 , 兼容 SQL 99 标准 ， 支 持 JDBC 3.0API， 定 位 于 高 端 Java 桌面 SQL 数据 库 。 支 持 所 有 能 运行 
Java 的 平台 ， 可 直接 嵌入 到 应 用 程序 中 。 不 过 它 也 有 一 些 不 足 ， 如 没有 网 络 接口 、 必 须 安装 Java 
运行 时 、 同 一 时 间 不 能 在 多 个 应 用 程序 之 间 共享 数据 库 、 没 有 用 户 管理 。 

LucidDB 


LucidDB (www.luciddb.org) 是 唯一 一 款 专注 于 数据 仓库 和 商务 智能 的 开源 RDBMS, 它 使 用 
了 列 存储 架构 ， 支 持 位 图 索引 ， 哈 希 连接 /聚合 和 页 面 级 多 版 本 ， 大 部 分 数据 库 最 初 都 注重 事务 处 
理 能 力 ， 而 分 析 功 能 都 是 后 来 才 加 上 去 的 。 相 反 ，LucidDB 中 的 所 有 组 件 从 一 开始 就 是 为 满足 灵 
活 的 需求 ， 高 性 能 数据 集成 和 大 规模 数据 查询 而 设计 的 ， 此 外 ， 其 架构 设计 彻底 从 用 户 出 发 ， 操 
作 简 单 ， 完 全 无 需 DBA。 

LucidDB 对 硬件 要 求 也 极 低 ， 即 使 不 搭建 集群 环境 ， 在 单一 的 Linux 或 Windows 服务 器 上 也 
能 获得 极 好 的 性 能 。 最 新 版 本 还 加 入 了 对 Mac OS X 和 Windows 64 位 的 支持 , 官方 网 站 上 的 文档 
和 教程 也 非常 丰富 ， 非 常 值得 体验 一 下 。 

HyperGraphDB 


HyperGraphDB (www.hypergraphdb.org) 是 一 种 通用 的 、 可 扩展 的 、 可 移植 的 、 分 布 式 、 钳 
入 式 和 开源 数据 存储 机 制 ， 它 是 一 个 图 形 数据 库 ， 专 门 为 人 工 智 能 和 语义 Web 项 目 而 设计 ， 它 也 
可 用 于 任意 规模 的 嵌入 式 面向 对 象 的 数据 库 。 正 如 其 名 ，HyperGraphDB 是 用 来 存储 超 图 的 ， 但 
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它 也 属于 一 般 图 形 数 据 库 家 族 ， 作 为 一 个 图 形 数 据 库 ， 它 不 施加 任何 限制 ， 相 比 其 他 图 形 数据 库 
它 的 功能 更 丰富 。 

HyperGraphDB 非常 稳定 , 已 经 应 用 在 多 个 生产 环境 , 包括 一 个 搜索 引擎 和 Seco scripting IDE。 
它 支持 *nix 和 Windows 平台 ， 需 要 Java 5+。 

InfoGrid 


InfoGrid (infogrid.org/) 是 一 个 互联 网 图 形 数据 库 ， 它 提供 了 许多 额外 的 组 件 ， 使 得 在 图 像 
基础 上 开发 RESTful Web 应 用 程序 变 得 更 加 容易 。InfoGrid 是 开源 的 ， 包 括 一 系列 项 目 : 


e InfoGrid 图 形 数据 库 项 目 一 一 InfoGrid 的 心脏 GraphDatabase， 可 以 独立 使 用 ， 也 可 以 附加 
到 其 他 InfoGrid 项 目 。 

e InfoGrid 图 形 数据 库 网 格 项 目 一 一 在 GraphDatabase 基础 上 增加 了 复制 协议 ， 因 此 多 个 分 
布 式 GraphDatabase 就 可 以 在 一 个 非常 大 的 图 像 管 理 环境 中 协作 。 

e InfoGrid 存储 项 目 一 一 像 SQL 数据 库 和 分 布 式 NoSQL 哈 希 表 那 样 ， 为 存储 技术 提供 一 个 
抽象 的 通用 接口 ， 这 样 InfoGrid GraphDatabase 就 可 以 使 用 任何 存储 技术 持久 化 数据 。 

e InfoGrid 用 户 接口 项 目 一 一 将 GraphDatabase 中 的 内 容 以 REST 风格 映射 成 浏览 器 可 访问 
的 URL。 

e InfoGrid 轻 量 级 身份 识别 项 目 一 实现 以 用 户 为 中 心 的 身份 识别 技术 如 LID 和 OpenID， 

e InfoGrid 模型 库 项 目 一 一 定义 一 个 可 复 用 对 象 模型 库 作为 InfoGrid 应 用 程序 的 模式 使 用 

e InfoGrid Probe 项 目 一 一 实现 Probe 框架 ， 它 允许 开发 人 员 将 任何 互联 网 上 的 数据 源 当 作 
一 个 图 像 对 象 看 待 。 

e InfoGrid Utilities 项 目 一 一 收集 InfoGrid 使 用 的 常见 对 象 框架 和 实用 代码 。 


Apache Derby 
Apache Derby (http://db.apache.org/derby/) 是 Apache DB 的 子 项 目 ， 它 完全 用 Java 编写 ， 是 
-个 开源 关系 数据 库 , 它 的 体积 非常 小 , 基础 引擎 加 上 JDBC 驱动 只 有 2.6MB, 它 支 持 SQL 标准 ， 

提供 了 一 个 嵌入 式 JDBC 驱动 ， 因 此 可 以 嵌入 到 任何 基于 Java 的 应 用 程序 中 ，Derby 也 支持 常见 
的 客户 端 /服务 器 模式 ， 它 也 易于 安装 和 使 用 。 

Hamsterdb 

Hamsterdb (hamsterdb.com/) 是 一 个 轻 量 级 嵌入 式 NoSQL Key/Value 存储 引擎 ， 它 已 经 有 5 
年 历史 ， 现 在 它 的 开发 重点 放 在 易 用 性 、 高 性 能 、 稳 定性 和 可 扩展 性 上 。Hamsterdb 支持 事务 ( 同 
一 时 间 只 能 处 理 一 个 事务 )， 支 持 内 存 数据 库 。 支 持 基于 HTTP 服务 器 的 嵌入 式 远程 数据 库 ， 支 持 
日 志 / 恢 复 、AES 加 密 、 基 于 zlib 的 压缩 、 支 持 CH、Python、.NET 和 Java 编程 语言 。 

H2 Database 

H2 Database (www.h2database.com/) 是 一 个 开源 的 Java 数据 库 ， 它 的 速度 很 快 ， 包 括 JDBC 
API， 支 持 嵌 入 式 和 服务 器 模式 ， 内 存 数据 库 ， 提 供 了 一 个 基于 浏览 器 的 控制 台 程序 ， 它 的 体积 
也 非常 小 ， 只 有 一 个 大 小 约 1MB 的 jar 文件 ， 它 还 支持 ODBC 驱动 和 全 文 搜索 。 
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EyeDB 

EyeDB (www.eyedb.org/) 是 一 款 基于 ODMG 3 规范 的 面向 对 象 数据 库 管理 系统 ， 为 CH+ 和 
Java 提供 了 编程 接口 ， 它 功能 非常 强大 ， 并 且 成 熟 、 稳 定 和 安全 ， 实 际 上 ， 它 起 源 于 1992 年 的 
Genome View 项 目 ，1994 年 又 进行 了 重 写 ， 广 泛 用 于 生物 信息 项 目 。 

txtSQL 

txtSQL (http://sourceforge.net/projects/txtsql/〉 是 一 个 面向 对 象 的 平面 文件 数据 库 管理 系统 ， 
它 使 用 PHP 编写 ， 支 持 对 普通 文本 文件 的 操作 ， 虽 然 是 一 个 文本 数据 库 ， 但 同样 支持 SQL 的 一 
个 子 集 ， 并 且 执 行 效率 非常 高 ，txtSQL 使 用 文件 系统 的 方法 与 MySQL 的 表 和 数据 库 原理 类 似 ， 
它 有 一 个 类 似 于 phpMyAdmin 的 管理 界面 。 

db4o 


db4o (www.db4o.com/) 是 一 个 面向 对 象 的 开源 数据 库 ， 人 允许 Java 和 .NET 开发 人 员 用 一 行 代 
码 存储 和 检索 任何 应 用 程序 对 象 ， 无 需 预定 义 或 维护 一 个 独立 的 、 僵 化 的 数据 横 型 ， 因 为 模型 现 
在 是 由 db4o 根据 需要 自动 创建 和 更 新 的 。db4o 成 功 的 秘密 是 因为 它 的 易 用 性 ， 它 原生 为 Java 
和 .NET 设计 , 存储 数据 对 象 的 方法 直 接 在 应 用 程序 中 定义 , 因此 db4o 很 容易 集成 到 应 用 程序 中 ， 
由 于 只 需要 一 行 代码 ， 因 此 执行 效率 非常 高 。 

Tokyo Cabinet 

Tokyo Cabinet (tokyocabinet.sourceforge.net) 是 一 个 Kay/Value 型 数据 库 ， 每 个 Key 和 Value 
的 长 度 都 可 以 不 同 ，Kay 和 Value 既 可 以 是 二 进 制 数据 ， 也 可 以 是 字符 串 ， 无 数据 表 和 数据 类 型 
的 概念 ， 记 录 是 以 哈 希 表 、B+ 树 和 固定 长 度数 组 形式 组 织 的 。Tokyo Cabinet 具有 以 下 优点 : 











e@ 空间 利用 率 高 数据 文件 尺寸 更 小 。 

e 执行 效率 高 一 一 更 快 的 处 理 速度 。 

e 并 发 性 能 好 一 一 在 多 线程 环境 性 能 更 好 。 

e 改善 的 可 用 性 一 一 简化 的 API。 

® 改善 的 可 靠 性 一 一 即使 在 发 生 灾难 的 情况 下 ， 数 据 文件 也 不 会 损坏 。 
@ 支持 64 位 架构 一 一 支持 海量 的 存储 空间 和 巨型 数据 库 文件 。 


Tokyo Cabinet 是 用 C 语言 编写 的 ， 为 C、Perl、Ruby、Java 和 Lua 提供 了 API。 
Voldemort 
Voldemort (www.project-voldemort.com/) 是 一 个 分 布 式 Key/Value 存储 系统 ， 它 具有 以 下 特点 : 


数据 自动 在 多 个 服务 器 之 间 复 制 。 

数据 自动 分 区 ， 因 此 每 个 服务 器 只 包括 整体 数据 的 一 个 子 集 。 

服务 器 故障 处 理 是 透明 的 。 

支持 插入 式 序列 化 ， 允 许 丰 富 的 Key 和 Value 类 型 ， 包 括 列表 和 元 组 ， 也 可 以 集成 常见 的 
序列 化 框架 ， 如 Protocol Buffers、Thrift、Avro 和 Java Serialization 。 

数据 项 支持 版 本 化 ， 即 使 在 故障 情况 下 ， 数 据 完整 性 也 可 以 得 到 保障 。 
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@ 单 节点 性 能 优秀 : 根据 机 器 配置 、 网 络 、 磁 盘 系 统 和 数据 复制 因素 的 不 同 ,每 秒 可 以 执行 


10~20k 操作 。 


支持 地 理 分 散 式 部 署 。 


本 章 小 结 


本 章 介绍 了 数据 存储 技术 的 概念 与 发 展 过 程 ， 讨 论 了 海量 数据 存储 的 一 些 关键 性 问题 ， 并 介 
绍 了 一 些 具有 典型 代表 意义 的 NoSQL 数据 库 产品 ， 表 2.1 对 这 些 产品 的 特征 进行 了 总 结 。 


表 2.1 NoSQL 数据 库 总 结 











类 型 特点 
列 存储 按 列 存储 数据 的 , 方便 存储 结构 化 和 半 结 构 化 数据 , 方便 做 
数据 压缩 ， 对 针对 某 一 列 或 者 某 几 列 的 查询 有 非常 大 的 IO 
i 优势 ， 具 有 高 可 扩展 性 、 可 用 性 、 面 向 分 布 式 计算 的 特点 
BigTable 
文档 型 存储 MongoDB 文档 存储 一 般 用 类 似 json 的 格式 存储 ， 存 储 的 内 容 是 文档 
CouchDB 型 的 ， 这 样 也 就 有 机 会 对 某 些 字段 建立 索引 ， 实 现 关系 数据 
库 的 某 些 功能 ， 满 足 海量 存储 和 访问 的 数据 库 
Key-value 存储 Tokyo CabineyTyrant | 可 以 通过 key 快速 查询 到 其 value。 一 般 来 说 ， 存 储 不 管 
Berkeley DB value 的 格式 ， 照 单 全 收 ， 满 足 极 高 读 写 要 求 
MemcacheDB 
Riak 
Keyspace 
Voldemort 
图 存储 图 形 关 系 的 最 佳 存储 , 使 用 传统 关系 数据 库 来 解决 的 话 性 能 
低下 ， 而 且 设计 使 用 不 方便 
对 象 存储 通过 类 似 面向 对 象 语言 的 语法 操作 数据 库 , 通过 对 象 的 方式 
Versant 存 取 数据 
txtSQL 
EyeDB 
XML 数据 库 BerkeleyDB XML 高 效 的 存储 XML 数据 ， 并 支持 XML 的 内 部 查询 语法 ， 比 
BaseX 如 XQuery、Xpath 
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第 3 章 
数据 抽取 和 清洗 


大 数据 的 一 个 重要 特点 就 是 多 样 性 ， 这 就 意味 着 数据 来 源 极其 广泛 ,数据 类 型 极为 繁杂 。 这 种 
复杂 的 数据 环境 给 大 数据 的 处 理 带 来 极 大 的 挑战 。 要 想 处 理 大 数据 ， 首 先 必须 对 所 需 数据 源 的 数 
据 进行 抽取 和 集成 ， 从 中 提取 出 关系 和 实体 ， 经 过 关联 和 聚合 之 后 采用 统一 定义 的 结构 来 存储 这 
些 数据 。 在 数据 集成 和 提取 时 需要 对 数据 进行 清洗 ， 保 证 数据 质量 及 可 信 性 。 本 章 就 介绍 了 各 种 
数据 抽取 和 清洗 技术 及 其 实现 。 


数据 抽取 作为 数据 处 理 的 第 一 步 ， 具 有 至 关 重 要 的 作用 。 大 数据 量 对 应 着 海量 噪 杂 的 信息 ， 
不 可 避免 地 带 来 大 数据 困惑 。 如 何 从 大 数据 中 提取 关键 性 的 代表 性 特征 ， 可 能 是 某 些 词 汇 ， 也 可 
能 是 某 些 短语 、 命 名 实体 或 流行 用 语 ， 则 成 为 大 数据 分 析 的 一 把 利器 。 

随 着 网 络 和 信息 技术 的 发 展 ， 出 现 了 “信息 爆炸 ”的 问题 ， 即 数据 极其 丰富 而 所 需 知识 相对 
匮乏 。 人 们 所 需求 的 数据 分 散在 多 家 网 站 的 Web 网 页 上 ， 为 了 得 到 自己 所 需 的 信息 ， 不 得 不 在 浩 
如 烟 海 的 网 页 中 搜索 、 浏 览 ， 寻 找 符合 自己 所 需 的 知识 ， 不 仅 浪 费 了 大 量 的 时 间 和 精力 ， 而 且 有 
时 不 一 定 能 得 到 自己 所 需 的 知识 , 所 以 说 在 数据 极 大 丰富 的 同时 , 也 带 来 了 数据 泛滥 的 问题 , Web 
数据 转换 集成 技术 正 是 用 来 从 巨 量 的 信息 中 获取 有 效 信息 的 方法 。 如 何 快速 、 准 确 地 从 海量 数据 
里 面 提取 有 用 的 信息 已 经 成 为 当前 计算 机 科学 的 关注 热点 。 

Web 数据 集成 技术 可 以 从 Web 上 自动 获取 数据 ,然后 集成 为 用 户 所 关心 的 有 效 信息 ,并 在 此 
基础 上 实现 高 效 的 查询 、 检 索 和 比较 ， 乃 至 数据 挖 据 、 知 识 发 现 等 应 用 。 但 是 由 于 Web 数据 的 特 
点 ， 从 Web 上 得 到 的 数据 中 有 可 能 存在 着 大 量 的 脏 数 据 ， 引 起 的 主要 原因 有 : 滥用 缩写 词 、 惯 用 
语 、 数 据 输 入 错误 、 重 复 记 录 、 丢 失 值 、 拼 写 变化 、 不 同 的 计量 单位 等 。 如 果 其 中 存在 着 大 量 的 
脏 数据 ， 那 么 这 些 数据 也 是 没有 任何 意义 的 ， 根 本 就 不 可 能 为 以 后 数据 挖掘 决策 分 析 系 统 提供 任 
何 支持 。 没 有 数据 清洗 ， 很 可 能 就 会 导致 错误 的 决策 ， 因 此 数据 清洗 是 构建 数据 仓库 和 知识 发 现 
的 必要 因素 。 

如 何 有 效 地 保证 数据 质量 是 关系 到 信息 抽取 和 数据 挖掘 是 否 成 功 的 问题 ， 对 此 问题 解决 方案 
的 探讨 已 经 经 成 为 当今 软件 技术 的 一 个 新 的 研究 热点 本 章 的 研究 内 容 就 是 在 上 述 背 景 下 提出 的 ， 
采取 的 手段 是 利用 数据 清洗 技术 来 消除 各 种 脏 数据 ， 从 而 实现 保证 数据 质量 的 目标 。 
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数据 抽取 和 清洗 技术 介绍 


3.1.1 数据 抽取 简介 


百度 给 数据 抽取 下 了 一 个 定义 : 数据 抽取 是 从 数据 源 中 抽取 数据 的 过 程 。 数 据 源 采用 关系 型 
数据 库 和 非 关 系数 据 库 。 具 体 来 说 ， 就 是 搜索 整个 数据 源 ， 使 用 某 些 标准 选择 合乎 要 求 的 数据 ， 
并 把 这 些 数据 传送 到 目的 文件 中 。 简 单 来 说 ， 数 据 抽取 就 是 从 数据 源 中 抽取 数据 的 过 程 。 数 据 源 
可 以 简单 分 为 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 

数据 的 抽取 需要 在 调研 阶段 做 大 量 工作 ， 首 先 要 搞 清 楚 数 据 是 从 很 多 业务 系统 中 来 的 ， 每 个 
业务 可 能 都 有 各 自 的 数据 库 ， 是 否 有 非 结 构 化 数据 等 。 大 数据 与 传统 海量 数据 的 差别 主要 在 于 海 
量 数据 一 般 都 是 指 存储 在 数据 库 中 的 结构 化 数据 , 而 大 数据 面 对 的 则 是 大 量 非 结构 化 的 业务 数据 ， 
如 招标 公告 文本 、 采 购 文本 中 的 各 类 有 价值 的 项 目 数据 、 招 标 金额 、 产 品 规格 信息 。 下 面 简单 介 
绍 几 种 不 同 数据 源 的 处 理 方法 。 


1. 与 存放 DW 的 数据 库 系 统 相同 的 数据 源 处 理 方法 

这 一 类 数据 源 在 设计 时 比较 容易 ， 一 般 情况 下 ，DBMS (包括 SQLServer，Oracle) 都 会 提供 
数据 库 链 接 功 能 , 在 DW 数据 库 服 务 器 和 原 业务 系统 之 间 建 立 直接 的 链接 关系 就 可 以 写 Select 语 
句 直 接 访问 。 

2. 与 DW 数据 库 系统 不 同 的 数据 源 的 处 理 方法 

这 一 类 数据 源 一 般 情况 下 也 可 以 通过 ODBC 的 方式 建立 数据 库 链接 , 如 SQL Server 和 Oracle 
之 间 。 如 果 不 能 建立 数据 库 链 接 ， 可 以 有 两 种 方式 完成 ， 一 种 是 通过 工具 将 源 数据 导出 成 .txt 或 
者 是 .xls 文件 ， 然 后 再 将 这 些 源 系 统 文件 导入 到 ODS 中 。 另 外 一 种 方法 通过 程序 接口 来 完成 。 

3. 文件 类 型 数据 源 ( -txt，.xls ) 

可 以 培训 业务 人 员 利 用 数据 库 工具 将 这 些 数据 导入 到 指定 的 数据 库 ， 然 后 从 指定 的 数据 库 抽 
取 。 或 者 可 以 借助 工具 实现 ， 如 SQL Server 2005 的 SSIS 服务 的 平面 数据 源 和 平面 目标 等 组 件 导 
入 ODS 中 去 。 

4. 增 量 更 新 问题 

对 于 数据 量 大 的 系统 ， 必 须 考 虑 增 量 抽取 。 一 般 情 况 ， 业 务 系统 会 记录 业务 发 生 的 时 间 ， 可 
以 用 作 增 量 的 标志 ， 每 次 抽取 之 前 首先 判断 ODS 中 记录 最 大 的 时 间 ， 然 后 根据 这 个 时 间 去 业务 
系统 取 大 于 这 个 时 间 的 所 有 记录 。 利 用 业务 系统 的 时 间 戳 ， 一 般 情 况 下 ， 业 务 系统 没有 或 者 部 分 
有 时 间 惟 。 

在 信息 系统 设计 中 ,我 们 会 将 处 理 的 数据 按 业 务 模 型 进行 分 类 。 通 常用 实体 (Entity) 及 关系 
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实战 大 数据 


(Relation) 来 描述 数据 ， 构 成 关系 数据 模型 。 在 面向 对 象 的 设计 中 ， 我 们 按照 对 象 本 身 的 特性 来 

设计 数据 结构 。 这 些 数据 都 具有 固定 的 字段 语义 、 明 确 的 数据 类 型 ， 具 有 数据 值 范围 及 可 施加 的 
操作 限制 等 约束 规范 。 这 些 数据 称 为 结构 化 数据 〈Structured Data )。 

而 声音 、 图 片 、 视 频 或 一 段 描述 性 文本 等 数据 ， 在 信息 系统 设计 中 一 般 不 直接 描述 其 内 部 结 
构 ， 而 是 作为 一 个 整体 来 处 理 ， 这 种 数据 称 为 非 结构 化 数据 〈Unstructured Data )。 

所 谓 半 结 构 化 数据 (Semi-structured Data )， 就 是 介 于 结构 化 数据 和 非 结构 化 数据 之 间 的 数据 
形式 ，HTML 文档 就 属于 半 结 构 化 数据 。Web 页 面 一 般 由 后 台数 据 库 驱 动 ， 但 这 些 数据 源 中 的 结 
构 化 数据 无 法 直接 获取 ， 只 能 透 过 HTML 这 样 的 视图 来 获得 半 结 构 化 数据 。 

数据 抽取 问题 可 以 用 下 面 的 定义 : 给 定数 据 源 S， 确 定 一 个 S 到 数据 库 的 映射 M， 该 映射 从 
S 中 抽取 数据 对 象 并 将 这 些 数据 对 象 按 一 定 的 格式 组 装 (Populate) 到 R 中 。 实现 这 一 映射 的 计算 
机 程序 就 是 数据 抽取 程序 ， 俗 称 包装 器 (Wrapper)。 要 构造 一 个 可 以 正常 工作 的 包装 器 ， 必 须 回 
答 下 列 问题 。 


(1) 要 在 数据 源 中 抽取 怎样 的 数据 对 象 

数据 源 中 的 数据 对 象 可 以 是 简单 的 字符 串 ， 也 可 以 具有 树 形 结构 ， 甚 至 具有 有 向 图 结构 〈 其 
中 结 点 又 称 数据 类 型 )。 为 使 包装 器 具有 通用 性 , 通常 用 数据 抽取 模型 来 描述 数据 源 中 数据 对 象 的 
结构 。 


(2) 如 何在 数据 源 中 找到 这 些 数据 对 象 
通常 用 抽取 规则 驱动 一 个 通用 抽取 算法 在 数据 源 中 搜索 与 抽取 规则 匹配 的 数据 对 象 。 


(3) 用 什么 格式 组 装 找到 的 数据 对 象 
通常 用 符合 某 个 数据 库 模式 的 格式 来 组 装 找到 的 数据 对 象 ， 这 个 数据 库 模 式 可 以 是 关系 的 、 
对 象 关 系 的 、 面 向 对 象 的 或 是 XML-Schema 的 。 


(4) 如 何 将 找到 的 数据 对 象 组 装 到 数据 库 中 
通常 的 方法 是 用 一 组 映射 规则 描述 数据 类 型 到 数据 库 字 段 之 间 的 对 应 关系 。 当 抽取 算法 找到 
-个 数据 对 象 时 ， 先 用 映射 规则 根据 数据 对 象 所 属 的 数据 类 型 找到 对 应 的 数据 库 字 段 ， 然 后 将 这 
个 数据 对 象 组 装 到 这 个 字段 中 。 一 般 并 不 单独 设计 组 装 算法 ， 数 据 对 象 的 组 装 通常 在 抽取 算法 中 
进行 。 因 此 抽取 算法 有 时 也 称 为 抽取 和 组 装 算法 。 


(5) 如 何 生 成 和 维护 数据 抽取 过 程 所 需 的 元 数据 

为 了 使 数据 抽取 和 组 装 算法 正常 工作 ， 必 须 向 它 提供 数据 抽取 模型 、 抽 取 规 则 、 数 据 库 模式 
和 映射 规则 等 参数 ， 本 书 将 这 些 参 数 称 为 元 数据 。 将 数据 仓库 系统 中 的 元 数据 定义 为 “用 于 支持 
数据 仓库 管理 和 有 效应 用 的 任何 信息 ”( 本 章 的 元 数据 和 这 一 定义 类 似 , 不 同 之 处 是 这 里 仅 涉及 数 
据 抽取 问题 ), 一 个 数据 源 需要 用 一 套 元 数据 进行 描述 。 由 于 数据 集成 系统 往往 会 涉及 大 量 的 数据 
源 和 相关 元 数据 ， 使 得 生成 和 维护 这 些 元 数据 的 工作 成 了 沉重 的 负担 。 
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3.1.2 ”数据 清洗 简介 

数据 清洗 原理 即 通过 分 析 “ 脏 数据 ”的 产生 原因 和 存在 形式 ， 利 用 现 有 的 技术 手段 和 方法 去 
清洗 “ 脏 数据 ”， 将 原 有 的 不 符合 要 求 的 数据 转化 为 满足 数据 质量 或 应 用 要 求 的 数据 ， 从 而 提高 数 
据 集 的 数据 质量 。 

数据 清洗 的 定义 在 不 同 的 应 用 领域 不 完全 相同 。 例 如 ， 在 数据 仓库 环境 下 ， 数 据 清洗 是 抽取 
转换 装载 过 程 的 一 个 重要 部 分 ， 要 考虑 数据 仓库 的 集成 性 与 面向 主题 的 需要 (包括 数据 的 清洗 及 
结构 转换 )。 数 据 清洗 主要 是 提高 数据 的 可 利用 性 〈 去 除 噪声 、 无 关 数 据 、 空 白 数据 域 ， 考 虑 时 间 
顺序 和 数据 的 变化 等 ), 但 主要 内 容 还 是 一 样 的 。 数据 清洗 是 一 个 减少 错误 和 不 一 致 性 、 解 决 对 象 
识别 的 过 程 。 可 以 这 么 定义 : 对 数据 源 进行 详细 分 析 后 ， 利 用 相关 技术 如 预定 义 的 清洗 规则 、 
字典 函数 库 及 重复 记录 匹配 等 ) 将 从 单个 或 者 多 个 数据 源 中 抽取 的 脏 数据 经 过 一 系列 转化 使 其 成 
为 满足 数据 质量 要 求 的 数据 ， 这 样 的 过 程 称 为 数据 清洗 。 

对 于 数据 清洗 的 定义 目前 还 没有 共识 。 对 于 应 用 于 不 同 领域 中 的 数据 清洗 有 不 同 的 解释 。 目 
前 ， 数 据 清洗 主要 应 用 于 三 个 领域 ， 数 据 仓库 (DW)、 数 据 库 中 的 知识 发 现 0(KDD) 和 数据 质量 
管理 (TDQM)。 

在 数据 仓库 领域 中 ， 数 据 清洗 一 般 是 应 用 在 几 个 数据 库 合并 时 或 多 个 数据 源 进行 集成 时 。 指 
代 同一 个 实体 的 记录 ， 在 合并 后 的 数据 库 中 就 会 出 现 重复 的 记录 。 数 据 清洗 过 程 就 是 要 把 这 些 重 
复 的 记录 识别 出 来 并 消除 它们 ， 也 就 是 所 说 的 合并 /清洗 (merge/purge) 问题 。 这 个 问题 的 实例 字 
面 可 称 作 记录 链接 、 语 义 集成 、 实 例 识别 或 对 象 标识 问题 。 

从 这 个 方面 讲 ， 数 据 清洗 可 有 几 种 定义 : 数据 清洗 是 消除 数据 的 错误 和 不 一 致 并 解决 对 象 标 
识 问 题 的 过 程 ， 数 据 清洗 是 归并 /清洗 问题 ， 数据 清洗 并 不 是 简单 地 用 优质 数据 更 新 记录 ， 它 还 涉 
及 数据 的 分 解 与 重组 。 

TDQM 是 一 个 学 术 界 和 商业 界 都 感 兴趣 的 领域 。 有 很 多 论文 提 到 数据 质量 及 其 集成 问题 ， 但 
是 很 少 涉及 数据 清洗 问题 。 有 些 文章 从 数据 质量 的 角度 论 及 过 程 管理 问题 。 在 数据 生命 周期 中 ， 
数据 的 获取 和 使 用 周期 包括 系列 活动 : 评估、 分析 、 调 整 、 丢 弃 数 据 。 如 果 将 数据 清洗 过 程 和 数 
据 生命 周期 循环 集成 起 来 ， 这 一 系列 步骤 就 从 数据 质量 的 角度 给 数据 清洗 下 了 定义 。 

到 目前 为 止 ,数据 清洗 还 没有 统一 的 定义 ， 它 在 数据 仓库 、 数 据 / 信 息 质量 管理 和 数据 库 中 的 
知识 发 现 KDD) 等 应 用 领域 中 有 不 同 的 表述 方式 ， 下 面 分 别 在 这 三 个 应 用 领域 中 介绍 数据 清洗 
的 定义 。 


1. 数据 仓库 应 用 中 的 数据 清洗 定义 


在 数据 仓库 领域 中 , 同一 个 实体 的 记录 在 不 同 的 数据 源 中 以 不 同 的 格式 表示 或 被 错误 地 表示 ， 
那 在 几 个 数据 库 合并 后 或 多 个 数据 源 集成 后 数据 库 仓库 中 就 会 存在 重复 记录 ， 数 据 清洗 就 是 要 把 
这 些 重复 的 记录 识别 出 来 并 消除 它们 ， 也 就 是 所 说 的 合并 清除 merge/purge) 问题 ， 这 样 的 过 程 
- 般 简 述 为 : 记录 连接 、 语 义 整合 、 实 例 识别 或 对 象 识别 问题 。 











73 


2 数据 信息 质量 管理 应 用 中 的 数据 清关 定义 


全 面 数据 质量 管理 解决 整个 信息 业务 过 程 中 的 数据 质量 及 其 集成 问题 ， 在 该 领域 中 ， 没 有 直 
接 定义 数据 清洗 ， 应 用 于 数据 获取 和 数据 使 用 的 数据 质量 生命 周期 模型 (包括 数据 的 评价 、 分 析 、 
调整 和 丢弃 等 )， 是 从 数据 质量 的 角度 ， 把 数据 清洗 过 程 和 数据 生命 周期 集成 在 一 起 ， 因 此 ， 数 据 
清洗 过 程 被 定义 为 一 个 评价 数据 正确 性 并 改善 其 质量 的 过 程 。 


3. KDD 应 用 中 的 数据 清 先 定义 


在 KDD 领域 ， 数 据 清 洗 被 认为 是 KDD 过 程 的 一 个 步骤 ， 即 对 数据 进行 预 处 理 的 过 程 。 各 种 
不 同 的 KDD 和 DM 系统 都 是 针对 特定 的 应 用 领域 进行 数据 清洗 ， 数 据 清洗 是 一 种 使 用 计算 机 化 
的 方法 来 检查 数据 库 ， 检 测 丢 失 的 和 不 正确 的 数据 ， 并 纠正 错误 数据 的 过 程 。 

在 KDD 的 过 程 中 ， 数 据 库 可 能 包含 一 些 数据 对 象 ， 它 们 与 数据 的 一 般 行为 或 模型 不 一 致 ， 
这 些 数据 对 象 被 称 为 异常 记录 。 异 常 记录 分 成 两 部 分 。 


e 一 部 分 的 记录 可 能 反映 某 种 稀有 而 真实 的 情况 ， 比 如 保险 欺诈 、 违规 交易 、 信用卡 欺诈 等 ， 
军 见 的 事件 可 能 比 正常 出 现 的 事件 更 有 意义 。 

@ 另 一 部 分 的 记录 是 在 产生 数据 样本 的 过 程 中 受 干 扰 或 污染 的 结果 ， 比 如 拼写 问题 、 打 字 错 
误 、 不 合法 值 、 空 值 、 不 一 致 值 、 简 写 、 同 一 实体 的 多 种 表示 (重复 ) 等 ， 这 部 份 记录 也 
是 数据 清洗 中 的 “ 脏 数据 ”， 根 据 “ 垃 圾 进 、 垃 圾 出 ”的 原理 ， 在 大 部 分 应 用 系统 中 ， 比 
如 数据 仓库 、KDD 及 综合 数据 质量 管理 等 ， 必 须 先 对 脏 数据 进行 清洗 。 这 样 一 方面 能 提 
高 数据 质量 ， 另 一 方面 能 增强 数据 的 可 用 性 ， 检 测 异 常 记录 中 的 脏 数 据 也 是 本 书 研 究 的 重 
要 目标 ， 即 设计 加 权 快 速 聚 类 算法 ， 以 便 高 效 快 速 检 测 异 常 记录 ， 设 计 基 于 等 级 分 组 的 相 
似 重复 记录 检测 算法 ， 以 便 高 效 快速 地 检测 重复 记录 。 


数据 清理 定义 为 发 现 和 清除 数据 中 的 错误 和 不 一 致 来 提高 数据 的 质量 ， 那 么 数据 清洗 的 任务 
就 是 通过 各 种 措施 从 准确 性 、 一 致 性 、 无 元 余 、 符 合 应 用 的 需求 等 方面 提高 已 有 数据 的 质量 。 大 
多 数 数据 质量 问题 可 以 在 数据 录入 的 初期 阶段 发 现 并 解决 ， 称 之 为 预防 阶段 。 处 理 目标 通常 情况 
只 是 单一 记录 ， 因 此 只 要 具有 充分 的 业务 规则 就 能 基本 保障 录入 数据 的 质量 ， 然 而 我 们 面临 的 一 
个 更 为 迫切 的 问题 是 如 何 充分 利用 已 经 存在 的 大 量 历 史 数 据 和 各 种 原始 信息 源 中 的 数据 。 数 据 采 
集 和 数据 库 技术 的 快速 发 展 产生 了 大 量 的 历史 数据 库 ， 这 些 数据 库 的 数据 往往 由 同样 年 代 久 远 的 
信息 系统 产生 和 维护 。 由 于 这 些 信息 系统 本 身 的 设计 和 当时 各 种 技术 的 局 限 性 ， 使 得 这 些 历史 数 
据 库 中 的 数据 质量 不 能 满足 现在 的 多 种 应 用 程序 的 要 求 ， 因 此 就 必须 采取 一 定 的 措施 处 理 这 些 数 
据 ， 使 之 符合 新 的 应 用 场景 。 

海量 数据 的 应 用 正 是 为 了 满足 这 样 的 需求 .而 建立 数据 仓库 的 过 程 中 往往 需要 集成 历史 数据 、 
现行 数据 以 及 来 自 不 同 数据 源 的 各 种 数据 。 据 统计 ， 在 建立 数据 仓库 的 过 程 中 75% 的 工作 量 将 投 
入 到 类 似 数据 准备 和 数据 装载 这 样 的 后 端 事务 中 。 数 据 仓库 中 数据 质量 的 好 坏 是 数据 仓库 应 用 成 
功 与 否 的 关键 因素 。 许 多 数据 仓库 项 目的 失败 就 是 因为 对 导入 数据 仓库 的 各 种 数据 质量 缺乏 足够 
的 重视 。 因 此 建立 数据 仓库 的 过 程 中 ， 需 要 有 效 的 技术 手段 和 工具 来 提高 导入 数据 仓库 的 数据 质 


有 屁 - 
里 。 
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第 3 章 数据 抽取 和 清洗 


数据 清洗 是 一 个 非常 复杂 的 任务 ， 并 且 包 含 着 一 些 互相 关联 的 问题 。 一 方面 转换 必须 尽 可 能 
具有 通用 性 ， 而 且 不 依赖 大 量 的 编程 工作 ， 也 就 是 支持 在 多 领域 内 的 多 种 错误 检测 算法 ; 另 一 方 
面 ， 系 统 需要 支持 一 种 简单 的 接口 定义 来 进行 错误 检测 和 数据 转换 。 因 此 ， 需 要 在 现 有 的 算法 和 
功能 基础 上 ， 设 计 相应 的 数据 清洗 系统 ， 使 它 具 有 相对 的 通用 性 和 可 交互 性 。 通 用 性 的 主要 实现 
技术 有 数据 标准 化 、 术 语 化 、 通 用 的 接口 标准 ， 即 通用 的 过 程 描述 语言 ， 通 用 的 数据 结构 以 支持 
用 户 进行 扩展 。 可 交互 性 支持 用 户 通 过 系统 反馈 的 检测 统计 图 表 ， 实 时 地 修改 转换 过 程 ， 避 免 用 
户 与 系统 的 隔离 。 

数据 清洗 按照 实现 方式 与 范围 ， 可 分 为 4 种 。 


(1) 手工 实现 
通过 人 工 检查 ， 只 要 投入 足够 的 人 力 物力 财力 ， 也 能 发 现 所 有 错误 ， 但 效率 低下 。 在 大 数据 
量 的 情况 下 ， 几 乎 是 不 可 能 的 。 


(2) 编写 专门 的 应 用 程序 

这 种 方法 能 解决 某 个 特定 的 问题 , 但 不 够 灵活 , 特别 是 在 清洗 过 程 需要 反复 进行 (一 般 来 说 ， 
数据 清洗 一 遍 就 达到 要 求 的 很 少 ， 时 导致 程序 复杂 ， 清 洗 过 程 变 化 时 工作 量 增 大 。 

(3) 解决 某 类 特定 应 用 领域 的 问题 

如 根据 概率 统计 学 原理 查找 数值 异常 的 记录 ， 对 姓名 、 地 址 、 邮 政 编码 等 进行 清洗 ， 这 是 目 
前 研究 较 多 的 一 类 问题 ， 也 是 应 用 比较 成 功 的 一 类 数据 清洗 问题 。 


(4) 与 特定 应 用 领域 无 关 的 数据 清洗 

这 一 部 分 的 研究 主要 集中 在 清洗 重复 的 元 素 上 。 

在 这 4 种 实现 方法 中 ， 由 于 后 两 种 具有 某 种 通用 性 及 其 较 大 的 实用 性 ， 已 受到 了 越 来 越 多 的 
关注 。 但 是 不 管 哪 种 方法 ， 都 由 数据 分 析 / 定 义 、 搜 索 / 识 别 错误 元 素 、 修 正 错误 3 个 阶段 组 成 。 

第 一 阶段 : 尽管 已 有 一 些 数据 分 析 工 具 , 但 仍 以 人 工分 析 为 主 。 可 以 将 错误 类 型 分 为 两 大 类 ， 
即 单数 据 源 与 多 数据 源 ， 并 将 它们 又 各 分 为 结构 级 与 记录 级 错误 。 这 种 分 类 非常 适合 于 解决 数据 
库 中 的 数据 清洗 问题 。 

第 二 阶段 : 有 两 种 基本 的 思路 用 于 识别 错误 。 一 种 是 发 掘 数据 中 存在 的 模式 ， 然 后 利用 这 些 
模式 清洗 数据 ， 另 一 种 是 基于 数据 的 ， 根 据 预定 义 的 清洗 规则 ， 查 找 不 匹配 的 记录 。 后 者 用 得 较 
多 。 

第 三 阶段 : 某 些 特定 领域 能 够 根据 发 现 的 错误 模式 ， 编 制程 序 或 借助 于 外 部 标准 源 文件 、 数 
据 字典 等 在 一 定 程度 上 对 错误 进行 修正 ， 对 数值 字段 进行 更 新 。 有 时 能 根据 数理 统计 知识 自动 修 
正 ， 但 经 常 须 编制 复杂 的 程序 或 借助 于 人 工 干预 完成 。 
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数据 抽取 和 清洗 研究 现状 


信息 抽取 研究 从 1980 年 末 开 始 鞍 勃 开展 , 消息 理解 会 议 (Message Understanding Conference， 
简称 MUC) 起 到 了 重要 的 推进 作用 。MUC 系列 会 议 的 召开 使 信息 抽取 技术 逐步 发 展 成 为 自然 语 
言 处 理 领 域 的 一 个 重要 分 支 ， 且 持续 推动 这 个 研究 领域 的 发 展 。 

MUC 会 议 ， 由 美国 国防 高 级 研究 计划 委员 会 资助 。 从 1987 年 到 1998 年 共 举 行 了 七 届 。 每 
次 会 议 之 前 , 组 织 方 先 向 各 参 会 者 安排 信息 抽取 任务 , 并 提供 消息 文本 的 样 例 和 抽取 任务 的 说 明 ， 
让 参 会 者 开发 相关 信息 抽取 系统 ， 要 求 能 够 处 理 这 种 消息 文本 。 在 正式 会 议 开 始 前 运行 各 自 的 系 
统 ， 对 给 定 的 消息 文本 集 进 行 处 理 和 测试 。 根 据 各 系统 的 输出 结果 与 标准 结果 的 对 照 情况 ， 得 到 
最 终 的 评测 结果 。 然 后 才 开始 正式 的 会 议 ， 会 议 时 由 参与 者 相互 交流 体会 和 想法 。 这 种 基于 评测 
驱动 的 会 议 模式 也 得 到 了 广泛 推广 。 

1993 年 8 月 举行 的 第 5 次 MUC 会 议 有 一 个 重要 创新 ， 引 入 了 区 套 的 模板 结构 。 通 过 借鉴 面 
向 对 象 的 思想 和 框架 知识 表示 的 思想 ， 信 息 抽取 模板 由 多 个 子 模板 组 成 ， 而 不 再 是 单个 模板 的 扁 
平 结构 。MUC 系列 会 议 的 召开 使 信息 抽取 这 一 新 的 研究 方向 的 确立 和 发 展 起 到 了 重大 的 推动 作 
用 。MUC 定义 的 信息 抽取 任务 的 各 种 规范 以 及 相应 的 评价 体系 ， 已 经 成 为 信息 抽取 。 近 年 来 ， 
信息 抽取 技术 的 研究 与 应 用 更 为 活跃 。 在 研究 方面 ， 主 要 侧重 于 以 下 几 方 面 : 利用 机 器 学 习 技术 
增强 系统 的 可 移植 能 力 、 探 索 深层 理解 技术 、 篇 章 分 析 技 术 、 多 语言 文本 处 理 能 力 、WEB 信息 抽 
取 以 及 对 时 间 信 息 的 处 理 等 。 

迄今 为 止 ， 国 内 的 研究 基本 上 都 处 在 包装 器 的 半自动 生成 阶段 ， 能 自动 识别 网 页 并 完全 自动 
生成 包装 器 的 数据 抽取 方法 的 研究 尚未 见 诸 文献 。 目 前 ， 国 内 较为 典型 的 数据 抽取 算法 和 抽取 系 
统 主要 有 以 下 几 种 。 

@ 中 国人 民 大 学 提出 的 基于 预定 义 模式 的 包装 器 采用 的 方法 是 由 用 户 定义 模式 并 给 出 模式 

与 HTML 页 面 之 间 的 映射 关系 ， 然 后 由 系统 推导 出 抽取 规则 ， 同 时 生成 包装 器 。 

@ ”中科院 软件 所 提出 的 基于 DOM 的 信息 提取 算法 。 该 算法 以 文档 对 象 模 型 (Document 
ObjectModel，DOM ) 为 基础 ， 把 所 要 提取 的 信息 位 于 DOM 层次 结构 中 的 路 径 作为 信息 
抽取 的 “坐标 ”。 在 这 个 基本 原理 的 基础 上 ,设计 了 一 种 半自动 生成 抽取 规则 的 归纳 学 习 
算法 ， 然 后 根据 抽取 规则 自动 生成 Java 类 ， 并 将 该 类 作为 Web 数据 抽取 包装 器 组 成 的 重 
要 构件 。 

e@ 河北 大 学 提出 的 基于 样本 实例 的 Web 信息 抽取 。 用 户 首先 指定 样本 页 面 和 预先 定义 模式 
的 对 象 关系 模型 。 然 后 对 样本 页 面 和 其 中 的 样本 记录 进行 标记 学 习 ， 形 成 规则 ( 包含 抽取 
规则 和 关联 规则 ) ， 并 将 规则 放 入 知识 库 中 。 最 后 利用 知识 库 对 其 他 同类 页 面 自 动 抽取 信 
息 ， 抽 取 的 结果 存放 到 对 象 关系 数据 库 中 。 

e@ 中 科大 提出 的 基于 多 层 模式 的 多 记录 网 页 信息 抽取 方法 。 基 本 思想 是 把 HTML 网 页 中 的 
待 抽取 信息 用 多 层 模式 进行 描述 ， 利 用 各 层 模式 之 间 相 互联 系 的 特点 ,动态 获取 各 层 中 与 
HTML 页 面 内 容 的 具体 描述 (格式 ) 密切 相关 的 信息 识别 模式 知识 。 
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e@ 北京 大 学 提出 的 DAE (DOM Based Automatic Extraction ) 算法 。 其 核心 是 借鉴 Ontology 
中 的 ALIGN 算法 的 设计 思想 ， 并 对 其 进行 了 改进 。DAE 算法 利用 HTML 的 DOM 树 的 
特性 解决 可 选项 的 问题 。 其 基本 思想 是 比较 不 同 页 面 间 的 相似 和 不 同 之 处 ， 得 出 一 个 公共 
的 包装 器 ， 然 后 对 该 包装 器 进行 语义 分 析 。 产 生 数 据 模式 后 ， 利 用 包装 器 将 数据 抽取 出 来 
并 连同 数据 模式 存放 到 XML 数据 集中 。 DAE 系统 和 早先 的 技术 相 比 ， 在 自动 化 程度 上 有 
了 很 大 提高 。 

@ 大 连 海事 大 学 提出 的 GALR 算法 。 是 对 WHISK 算法 的 改进 ,基本 思想 是 把 遗传 算法 引入 
到 抽取 规则 的 学 习 中 ， 即 在 扩展 规则 时 随机 增加 项 ， 以 较 优 的 目标 函数 指导 规则 扩展 ， 以 
得 到 准确 率 较 高 的 规则 。 这 种 算法 比 原先 的 技术 ， 在 准确 性 上 获得 了 提高 。 


然而 这 些 算 法 都 有 一 定 的 局 限 性 。 首 先 ， 需 要 有 较 多 的 人 工 十 预 和 指导 。 因 为 需要 较 多 的 先 
验 知识 和 基础 条 件 ， 且 不 同 的 系统 使 用 的 描述 语言 和 表达 形式 不 同 ， 所 以 不 仅 要 求 进行 干预 的 专 
业 人 员 需 要 对 网 页 的 结构 分 析 和 生成 技术 等 方面 较为 熟悉 ， 并 且 还 要 求 对 系统 使 用 的 描述 语言 和 
表达 形式 有 相当 了 解 ， 才 能 应 用 到 具体 项 目 中 ， 因 此 对 人 员 的 要 求 比较 严格 。 
其 次 ， 根 据 一 定 的 先 验 知识 产生 包装 器 的 方法 造成 了 系统 的 适应 性 较 差 ， 也 就 是 说 ， 根 据 某 
-特定 情况 产生 的 包装 器 只 能 适用 于 此 种 特定 情况 。 当 网 页 结构 发 生变 化 时 ， 需 要 重新 进行 人 工 
干预 和 标识 ， 因 此 难以 较 好 地 适应 变化 ， 系 统 的 可 维护 性 较 差 。 
针对 数据 质量 的 现状 ， 很 多 学 者 提出 了 数据 清洗 的 框架 。 但 是 数据 清洗 是 一 个 领域 相关 性 非 
常 强 的 工作 ， 而 且 数据 质量 问题 非常 零散 、 复 杂 、 不 一 致 ， 到 目前 为 止 没 有 形成 通用 的 国际 标准 ， 
只 能 根据 不 同 的 领域 制定 不 同 的 清洗 算法 。 目 前 的 清洗 算法 的 优良 性 衡量 标准 有 以 下 几 个 方面 
返回 率 (Recall) (重复 数据 被 正确 识别 的 百分率 ); False-positive Error (错误 地 作为 重复 数据 记录 
的 百分比 ); 精确 度 (Precision) (算法 识别 的 重复 记录 中 的 正确 的 重复 记录 的 百分比 )， 计 算 公式 
(Precision=100%-False-Positive Error )。 


数据 清洗 主要 分 为 检测 和 清洗 两 个 步骤 。 国 内 外 的 相关 研究 主要 有 以 下 几 个 方面 


日 提出 高 效 的 数据 异常 检测 算法 ， 来 避免 扫描 整个 庞大 的 数据 集 。 

在 自动 检测 数据 异常 和 进行 清洗 处 理 的 步骤 间 增 加 人 工 判断 处 理 以 防止 对 正确 数据 的 错 
误 处 理 。 

数据 清洗 时 对 数据 集 文件 的 处 理 。 

如 何 消除 合并 后 数据 集中 的 重复 数据 

建立 一 个 通用 的 领域 无 关 的 数据 清洗 框架 。 

关于 模式 集成 的 问题 。 





目前 已 经 提出 一 些 数据 清洗 的 模型 ， 如 : 基于 粗糙 集 理论 数据 清洗 、 基 于 聚 类 模式 数据 清洗 、 

基于 模糊 匹配 数据 清洗 模型 、 基 于 遗传 神经 网 络 数据 清洗 、 基 于 专家 系统 体系 结构 等 数据 清洗 模 
型 等 。 但 这 些 模型 都 有 着 不 同 程度 的 弊端 。 以 基于 聚 类 模式 的 数据 清洗 为 例 : 

e 已 有 的 聚 类 算法 对 直接 检测 异常 作用 不 大 在 对 整个 记录 空间 运用 聚 类 算法 时 能 发 现 异 常 

时 所 产生 的 聚 类 能 作为 下 述 两 种 方法 的 检测 空间 。 其 主要 缺陷 是 耗 时 ， 特 别 在 记录 条 数 多 
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ED 
时 ， 不 适 于 检测 异常 。 
@ 在 运用 聚 类 算法 的 基础 上 ， 使 用 给 予 模式 的 方法 (每 个 字段 使 用 欧式 距离 ， 采 用 K-mean 
算法 ，K=6 ) ， 仅 检测 到 了 少量 记录 ( 0.3% ) 满足 超过 90% 字 段 的 模式 。 
。 经 典 的 (布尔 型 ) 关联 规则 难以 发 现 异 常 ， 但 数量 型 关联 规则 、 率 规则 (Ratio mles ) 、 
序数 关联 规则 能 较 好 地 检测 异常 与 错误 。 


目前 国内 对 于 数据 清洗 技术 的 研究 ， 还 处 初级 阶段 。 数 据 清洗 问题 的 重要 性 是 不 言 而 喻 的 ， 
然而 ， 目 前 在 学 术 界 ， 它 并 没有 得 到 足够 的 关注 。 有 些 人 认为 数据 清洗 是 一 个 需要 大 量 劳动 力 的 
过 程 ， 而 且 往往 过 于 依赖 特定 应 用 领域 ， 其 实 不 然 ， 在 数据 清洗 系统 的 灵活 框架 上 仍然 有 很 多 东 
西 值 得 研究 ， 在 异 构 数据 集成 中 ， 如 何 准确 地 识别 相似 重复 记录 ， 也 有 很 多 工作 可 以 做 。 当 前 
Web 数据 量 迅 速 增长 ， 对 Web 搜索 引擎 返回 的 结果 进行 清洗 也 是 一 个 有 价值 的 问题 。 随 着 XML 
数据 处 理 标准 的 日 渐 成 熟 ， 如 何 定义 XML 文档 的 质量 标准 以 及 如 何 针对 XML 文档 的 数据 清洗 ， 
都 是 值得 研究 的 。 

目前 ， 从 国内 外 关于 数据 清洗 的 研究 现状 来 看 ， 不 足 主要 体现 在 以 下 几 个 方面 : 


@ 目前 数据 清洗 较 多 的 是 针对 特定 的 领域 。 如 银行 、 保 险 和 证 券 等 对 客户 数据 的 准确 性 要 求 
很 高 的 行业 ， 都 在 做 自己 的 客户 数据 的 清洗 工作 ， 针 对 自己 的 具体 应 用 开发 软件 ， 通 用 的 
数据 清洗 框架 并 不 多 见 。 

@ 国产 的 数据 清洗 工具 较 少 ， 对 于 不 完整 数据 、 异 常数 据 的 清洗 研究 较 少 。 

@ 检测 重复 记录 的 算法 受到 很 大 的 关注 。 但 是 在 数据 量 比较 大 时 ， 检 测 效率 和 精度 不 高 ， 耗 
时 多 ， 有 待 于 更 好 的 检测 算法 。 

@ ”数据 清洗 的 研究 主要 集中 在 数据 仓库 上 ， 许 多 公司 推出 了 比较 成 熟 的 ETL 工具 ， 但 是 针 
对 Web 数据 的 清洗 工具 很 少 ， 特 别 是 由 于 Web 数据 的 特点 和 XML 自身 所 具有 的 特性 ， 
如 通用 性 、 自 描述 性 。 

@ 由 于 中 文 与 英文 不 同 特点 ， 数 据 清洗 方法 有 所 不 同 ， 针 对 中 文 的 数据 清洗 没有 引起 重视 。 














数据 抽取 技术 的 实现 


3.3.1 Web 数据 抽取 


1. Web 数据 抽取 的 意义 

传统 的 信息 抽取 (Information Extraction， 正 ) 是 从 自然 语言 中 获取 特定 的 事件 、 事 实 等 信息 ， 
并 将 这 些 信息 以 结构 化 的 形式 存 入 数据 库 中 ， 供 用 户 查询 及 进一步 分 析 利 用 的 过 程 。 即 它 从 自然 
语言 中 抽取 用 户 感 兴趣 的 事件 、 实 体 和 关系 ， 然 后 存 入 数据 库 ， 分 析 趋 势 ， 给 出 文摘 ， 或 进行 在 
线 服 务 。 信 息 抽取 还 可 以 看 作 是 信息 检索 的 进一步 深化 ， 研 究 指定 信息 的 查找 、 理 解 和 抽取 ， 并 
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将 指定 信息 以 适当 的 方式 输出 。 信息 抽取 系统 以 原始 文本 作为 输入 , 以 固定 格式 的 信息 作为 输出 。 

信息 抽取 系统 的 设计 主要 分 为 知识 工程 方法 和 自动 训练 方法 。 知 识 工程 方法 主要 是 通过 手工 
编写 规则 使 系统 实现 对 特定 知识 领域 的 信息 抽取 。 此 方法 要 求知 识 工程 师 对 知识 领域 有 较为 深入 
的 了 解 ; 自动 训练 方法 是 给 特定 的 语料库 标记 好 要 想得到 的 信息 , 然后 通过 机 器 学 习 来 获取 规则 ， 
这 种 方法 比 知识 工程 更 加 智能 和 快速 ， 但 需要 足够 多 的 训练 数据 作为 处 理 质量 的 保证 。 典 型 的 信 
息 抽取 系统 由 文本 分 块 、 预 处 理 、 过 滤 、 预 分 析 、 分 析 、 片 段 组 合 、 语 义 解 释 、 词 汇 消 歧 、 共 指 
消解 或 篇 章 处 理 、 模 板 生成 这 10 个 依次 相连 的 模块 组 成 。 

随 着 互联 网 技术 的 飞速 发 展 ，Web 上 的 网 站 和 网 页 数量 以 爆炸 性 的 趋势 增长 ， 从 而 使 Web 
成 为 一 个 巨大 的 、 分 布 广泛 的 数据 源 。 有 效 地 获取 和 集成 Web 数据 ， 为 进一步 的 分 析 和 挖掘 提供 
支持 ， 具 有 十 分 重要 的 应 用 价值 和 现实 意义 。Web 数据 集成 可 以 实现 对 Web 数据 的 有 效 整 合 ， 为 
市 场 情报 分 析 等 应 用 提供 支持 。 但 是 ， 由 于 Web 上 的 数据 呈现 出 海量 、 异 构 、 动 态 变化 和 联系 丰 
富 等 特点 ， 导 致 Web 上 的 数据 无 法 一 次 获取 ， 一 次 理解 ， 一 次 集成 。 因 此 ， 识 别 Web 数据 集成 
是 一 个 逐渐 理解 Web 数据 的 过 程 ; 是 一 个 去 伪 存 真 ， 实 现 逐 步 净化 、 完 善信 息 的 过 程 。 

Web 信息 抽取 是 随 着 网 络 技术 的 发 展 、 网 页 信息 的 扩充 而 产生 的 。 它 是 信息 抽取 近年 来 的 一 
个 侧重 分 支 研究 领域 。 Web 信息 抽取 技术 的 研究 和 实践 经 历 了 手动 到 半自动 再 到 完全 自动 的 过 程 。 
20 世纪 初 ，Web 信息 抽取 技术 还 处 于 一 个 半自动 的 发 展 状态 。 对 Web 页 面 的 抽取 通常 是 在 程序 
员 研 究 网 站 后 ， 手 工 编写 代码 开发 一 个 包装 器 程序 ， 把 网 页 的 用 户 感 兴趣 的 内 容 抽取 出 来 存放 在 
数据 库 中 。 由 于 Web 信息 数据 量 大 ， 更 新 快 ， 手 工 编写 的 方式 缺点 口 益 显现 ， 不 仅 具 有 较 低 的 抽 
取 效 率 ， 而 且 需 要 花费 大 量 时 间 和 人 力 ， 很 难 满足 大 规模 Web 信息 抽取 的 要 求 。 随 着 人 工 智能 技 
术 的 使 用 ,在 Web 信息 抽取 中 逐步 引用 了 数据 挖掘 、 机 器 学 习 和 概念 建 模 等 技术 方式 ， 这 些 技术 
在 一 定 程度 上 增加 了 程序 的 自动 性 ， 但 也 还 是 以 用 户 的 大 量 参与 为 基础 的 ， 自 动 化 程度 也 不 高 。 
正 是 在 这 种 背景 之 下 ， 完 全 自动 化 的 信息 抽取 方法 逐渐 成 为 Web 信息 抽取 研究 的 热点 ， 这 些 方法 
主要 是 分 析 网 页 的 标签 结构 ， 挖 掘 网 页 中 的 重复 模式 来 实现 数据 记录 的 全 自动 化 抽取 。 而 本 体 论 
的 提出 ， 又 能 解决 抽取 过 程 中 需要 用 户 干预 的 语义 分 析 部 分 。 

Web 数据 集成 系统 是 一 个 积累 的 系统 。 由 于 WWW 在 不 断 地 发 展 ， 一 方面 ，Web 数据 会 被 
不 断 地 集成 至 系统 中 ; 另 一 方面 ，Web 数据 间 新 的 联系 也 将 被 集成 至 系统 中 。Web 数据 集成 系统 
中 积累 的 数据 ， 不 仅 可 以 为 市 场 情报 分 析 等 应 用 提供 支持 ， 而 且 还 可 以 为 Web 数据 集成 系统 自身 
提供 帮助 ， 例 如 ， 利 用 系统 中 积 味 的 数据 辅助 发 现 新 Web 页 面 中 的 待 抽取 数据 ， 辅 助 发 现 新 Web 
实体 与 Web 实体 模型 中 已 有 Web 实体 间 的 联系 等 。Web 数据 抽取 是 Web 数据 集成 中 的 关键 问题 
开展 Web 数据 抽取 问题 研究 ， 对 于 Web 数据 集成 具有 重要 的 作用 和 意义 。 


(1) Web 数据 抽取 是 实现 Web 数据 集成 的 基础 和 保证 
Web 数据 集成 需要 对 Web 上 的 数据 进行 有 效 的 整合 ,Web 页 面 中 的 数据 大 部 分 为 半 结构 化 数 
据 ， 有 效 地 对 Web 页 面 中 的 半 结 构 化 数据 进行 抽取 ， 以 规范 化 的 形式 存储 ， 是 Web 数据 集成 的 
基本 要 求 。Web 数据 抽取 可 以 完成 对 Web 页 面 中 广泛 存在 的 半 结 构 化 数据 的 抽取 工作 ， 为 Web 
数据 集成 商定 数据 基础 。 
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(2) Web 数据 抽取 可 以 实现 对 Web 数据 的 理解 
Web 页 面 中 的 数据 大 部 分 为 半 结 构 化 数据 , 因此 , Web 数据 中 存在 大 量 的 属性 标签 缺失 现象 ， 
导致 无 法 准确 地 理解 对 应 Web 数据 元 素 的 语义 。Web 数据 抽取 可 以 对 抽取 到 的 Web 数据 元 素 进 
行 语义 标注 ， 实 现 对 Web 数据 的 理解 。 


(3) Web 数据 抽取 为 Web 数据 集成 中 的 其 他 环节 提供 数据 服务 

Web 数据 抽取 可 以 利用 已 抽取 的 Web 数据 对 象 间 的 联系 ， 发 现 Web 实体 间 的 潜在 联系 。 在 

Web 数据 集成 系统 中 ,利用 Web 实体 间 的 联系 ， 可 以 形成 一 个 基于 这 些 联系 的 事实 知识 库 , 为 进 
- 步 实施 Web 数据 集成 中 的 其 他 环节 ， 例 如 重复 记录 探测 、 数 据 分 析 等 ， 提 供 数 据 服务 。 

国内 外 学 者 对 于 Web 数据 抽取 问题 已 经 开展 了 大 量 的 研究 , 取得 了 一 系列 的 研究 成 果 。 但 是 ， 
由 于 现 有 的 大 部 分 方法 中 侧重 于 从 信息 检索 的 角度 展开 研究 , 导致 现 有 的 Web 数据 抽取 方法 没有 
充分 地 利用 Web 数据 集成 系统 中 积累 的 数据 。Web 数据 集成 系统 中 存在 大 量 的 数据 , 包含 了 大 量 
的 潜在 特征 和 信息 ， 有 效 地 利用 Web 数据 集成 系统 中 积累 的 数据 ， 可 以 进一步 提高 Web 数据 抽 
取 的 性 能 ， 为 Web 数据 集成 系统 提供 更 多 、 更 大 的 支持 。 


2. Web 数据 抽取 的 问题 


由 于 Web 上 的 数据 具有 海量 、 异 构 、 动 态 变化 、 联 系 丰富 等 特点 ， 导 致 Web 数据 抽取 研究 

中 仍然 存在 以 下 问题 有 待 解决 。 
(1) 在 Web 数据 集成 过 程 中 ， 需 要 获取 Web 实体 的 模式 信息 ， 为 进一步 识别 、 抽 取 和 集成 
来 自 不 同 数据 源 的 Web 数据 对 象 提供 指导 。Web 上 广泛 存在 的 半 结 构 化 数据 的 模式 具有 异 构 和 动 
态 变化 的 特点 ， 有 效 地 构建 Web 实体 的 模式 信息 ， 是 一 个 有 待 解决 的 问题 。 现 有 的 研究 方法 利用 
搜索 引擎 收集 尽 可 能 多 网 页 上 的 属性 标签 以 及 Web 数据 对 象 信息 , 通过 聚 类 的 方法 一 次 性 地 生成 
相关 Web 实体 的 重要 属性 标签 集合 。 但 是 ， 由 于 Web 上 半 结 构 化 数据 的 模式 具有 异 构 性 以 及 动 
态 变化 的 特点 ， 不 同 网 站 的 网 页 上 对 同类 Web 数据 对 象 的 描述 形式 不 尽 相 同 ， 并 且 Web 上 会 产 
生 新 的 属性 标签 ， 导 致 该 类 方法 无 法 满足 Web 数据 集成 的 需要 ， 无 法 根据 Web 数据 模式 的 动态 
变化 ， 实 现 对 Web 实体 模式 的 逐步 丰富 。 
(2) 在 Web 数据 抽取 过 程 中 ， 需 要 准确 地 从 目标 网 页 中 抽取 出 目标 数据 ， 并 对 抽取 的 数据 

元 素 进行 语义 上 的 理解 ， 为 进一步 整合 数据 奠定 基础 。 准 确 地 抽取 目标 数据 ， 并 进行 语义 标注 是 
另 一 个 有 待 解决 的 问题 。 

从 目标 网 页 准确 地 抽取 Web 数据 对 象 是 Web 数据 抽取 研究 中 的 主要 研究 点 之 一 ， 通 过 对 目 
标 网 站 采样 页 面 中 的 数据 元 素 和 属性 标签 进行 准确 识别 ， 生 成 良好 的 训练 样 例 ， 进 而 学 习 生成 包 
装 器 , 可 以 有 效 地 实现 对 目标 数据 的 抽取 。 现 有 的 大 部 分 方法 主要 利用 采样 页 面 自 身 包含 的 特征 ， 
例如 视觉 特征 、 结 构 特征 等 ， 识 别 出 页 面 中 的 数据 元 素 和 属性 标签 ， 生 成 训练 样 例 。 但 是 ， 对 于 
结构 复杂 的 Web 页 面 产生 的 训练 样 例 质量 不 高 , 严重 地 影响 了 学 习 得 到 的 包装 器 对 于 目标 数据 的 
抽取 准确 度 。 

Web 页 面 中 包含 的 数据 大 部 分 为 半 结 构 化 数据 ， 存 在 大 量 的 属性 标签 缺失 现象 ， 导 致 无 法 准 
确 地 理解 对 应 数据 元 素 的 语义 。 条 件 随机 场 是 目前 进行 Web 数据 语义 标注 的 经 典 方法 , 但 是 现 有 
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的 条 件 随 机 场 模型 只 能 对 Web 数据 元 素 间 的 邻接 依赖 联系 进行 处 理 , 缺少 对 数据 元 素 间 的 非 邻 接 
依赖 联系 的 高 效 发 现 和 处 理 机 制 ， 导 致 对 于 复杂 页 面 的 语义 标注 准确 率 较 低 。 

(3) 在 Web 数据 抽取 过 程 中 ， 需 要 建立 新 发 现 Web 实体 与 Web 实体 模型 中 己 有 Web 实体 
间 的 联系 ， 丰 富 Web 实体 模型 ， 为 进一步 整合 Web 数据 葛 定 基础 。 有 效 地 建立 新 发 现 Web 实体 
与 Web 实体 模型 中 已 有 Web 实体 间 的 联系 ， 也 是 一 个 有 待 解决 的 问题 。 

在 Web 数据 集成 系统 中 ， 需 要 将 新 发 现 的 Web 实体 丰富 至 Web 实体 模型 中 ， 并 建立 新 发 现 
Web 实体 与 Web 实体 模型 中 已 有 Web 实体 间 的 联系 。 利 用 Web 实体 间 的 联系 ， 形 成 一 个 事实 知 
识 库 ， 不 仅 可 以 为 市 场 情报 分 析 等 应 用 提供 支持 ， 而 且 还 可 以 为 Web 数据 集成 中 的 其 他 环节 ， 例 
如 重复 记录 探测 、 数 据 合 并 等 提供 强 有 力 的 支持 。 然 而 ， 现 有 的 关系 发 现 研 究 大 多 集中 于 命名 实 
体 间 的 关系 发 现 ， 缺 乏 对 Web 实体 模型 中 Web 实体 间 联 系 的 自动 发 现 研究 。 


3. Web 解决 方案 


本 书 针 对 Web 数据 抽取 中 面临 的 问题 ， 提 出 一 组 有 效 的 解决 方法 ， 为 实现 Web 数据 集成 系 
统 提 供 必 要 的 数据 基础 和 数据 保证 ， 同 时 也 为 Web 数据 集成 系统 中 的 其 他 环节 ， 例 如 数据 整合 层 
中 的 重复 记录 探测 ， 数 据 合并 等 ， 提 供 数 据 服务 。 具 体 包括 以 下 三 个 方面 的 内 容 。 


(1) Web 实体 模式 构建 
Web 实体 的 模式 是 指 Web 实体 对 应 的 Web 数据 对 象 所 使 用 的 属性 标签 的 集合 .通过 利用 Web 
数据 集成 系统 中 已 存在 的 数据 ， 辅 助 识别 出 目标 页 面 中 的 新 属性 标签 ， 并 判断 其 所 属 类 别 ， 实 现 
对 Web 实体 模式 信息 的 逐步 丰富 。 


(2) 数据 抽取 
Web 页 面 中 的 数据 大 部 分 为 半 结 构 化 数据 , 利用 Web 数据 集成 系统 中 已 存在 的 数据 , 辅助 识 
别 出 目 标 页 面 中 的 数据 元 素 和 属性 标签 ， 提 高 目标 数据 的 抽取 准确 率 。 另外， 通过 利用 Web 数据 
元 素 间 的 非 邻 接 依赖 联系 ， 实 现 对 Web 页 面 中 缺失 属性 标签 的 数据 元 素 的 准确 语义 标注 。 


(3) Web 实体 间 联 系 发 现 

Web 数据 间 具 有 丰富 的 潜在 联系 ，Web 实体 模型 中 定义 了 Web 实体 以 及 Web 实体 之 间 的 联 
系 。 通 过 利用 已 抽取 Web 数据 对 象 间 的 联系 ， 建 立新 发 现 Web 实体 与 Web 实体 模型 中 已 有 Web 
实体 间 的 联系 ， 实 现 对 Web 实体 模型 的 丰富 。 

Web 实体 的 模式 信息 将 为 Web 数据 抽取 提供 指导 , 辅助 识别 页 面 中 的 待 抽取 数据 元 素 以 及 确 
定 页 面 中 的 待 抽取 数据 区 域 .另外 , Web 实体 模式 为 Web 数据 语义 标注 提供 必要 的 语义 标签 集合 ， 
辅助 进行 语义 标注 。Web 数据 抽取 提供 的 Web 数据 对 象 信息 ， 可 以 为 Web 实体 间 联 系 的 发 现 提 
供 线索 ， 辅 助 建立 新 发 现 Web 实体 与 Web 实体 模型 中 已 有 Web 实体 间 的 联系 。 而 Web 实体 的 模 
式 构建 和 联系 发 现 又 同属 于 Web 实体 模型 丰富 问题 。 

目前 ， 针 对 Web 信息 抽取 的 方法 很 多 ， 可 以 从 不 同 的 角度 对 这 些 方法 进行 分 类 ， 按 照 Web 
信息 抽取 对 象 的 结构 化 程度 ， 大 体 上 可 以 分 为 三 种 类 型 : 结构 化 文本 、 半 结构 化 文本 、 自 由 文本 。 
根据 自动 化 程度 可 以 分 为 人 工 方式 的 信息 抽取 、 半 自动 方式 的 信息 抽取 和 全 自动 方式 的 信息 抽取 
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三 大 类 ; 根据 方法 采用 的 原理 可 以 分 为 基于 自然 语言 处 理 方式 的 信息 抽取 、 基 于 包装 器 归纳 方法 
的 信息 抽取 、 基 于 本 体 方式 的 信息 抽取 、 基 于 HTML 结构 方式 的 信息 抽取 、 基于 HMM (Hidden 
Markov Model) 的 信息 抽取 、 基 于 XML 的 信息 抽取 。 本 节 将 从 方法 采用 的 原理 出 发 ， 介 绍 几 种 
Web 信息 的 抽取 技术 ， 并 结合 目前 较为 典型 的 系统 来 分 析 这 几 类 信息 抽取 方法 。 


(1) 基于 自然 语言 处 理 方式 的 信息 抽取 

基于 自然 语言 处 理 方式 的 信息 抽取 是 以 自然 语言 处 理 技术 为 基础 ， 通 常 适用 于 那些 含有 大 量 
文本 且 句 子 完整 、 适 合 语法 分 析 的 Web 页 面 , 在 抽取 的 过 程 中 , 它 将 网 页 视 为 自由 文本 进行 处 理 ， 
经 过 名 法 分 析 、 语 义 标注 、 专 有 对 象 的 识别 和 抽取 规则 生成 等 一 系列 阶段 。 具 体 来 说 ， 它 首先 将 
网 页 文本 分 割 成 多 个 子 句 的 集合 ， 对 每 一 个 句子 的 句子 成 份 进行 语义 标记 。 然 后 将 其 与 已 定制 好 
的 规则 进行 匹配 ， 从 而 获得 句子 内 容 。 对 于 规则 的 定制 ， 我 们 可 以 利用 知识 工程 的 方法 或 自动 学 
习 的 方法 来 获得 。 基 于 自然 语言 处 理 方式 的 信息 抽取 没有 利用 Web 文档 所 固有 的 层次 特性 , 在 抽 
取 过 程 中 暴露 出 诸多 的 缺陷 。 首 先 其 抽取 规则 的 表达 能 力 有 限 ， 缺 乏 健壮 性 ， 而 且 规则 的 获取 是 
建立 在 对 大 量 样本 学 习 的 基础 之 上 的 , 不 仅 难以 获得 较 高 的 抽取 效率 , 而 且 难 以 实现 完全 自动 化 ; 
其 次 ， 这 种 方式 的 信息 抽取 只 支持 记录 型 的 语义 模式 结构 ， 不 支持 复杂 对 象 的 抽取 。 

SRV 是 一 种 用 来 生成 抽取 规则 由 上 而 下 的 关系 算法 ， 它 将 信息 抽取 视 为 分 类 问题 的 一 种 来 进 
行 考察 。 对 输入 的 文档 进行 标记 化 ， 而 且 对 所 有 连续 的 子 串 〈 如 文本 块 ) 要么 被 标记 为 抽取 的 目 
标 〈 正 面 实例 )， 要 么 被 标记 为 非 抽 取 的 目标 〈 负 面 实例 )。 由 SRV 生成 的 抽取 规则 是 一 组 依赖 于 
面向 标记 特征 《或 预测 分 析 ) 的 逻辑 规则 。 这 些 特征 包含 两 种 ， 简 单 类 型 和 关系 类 型 。 简 单 类 型 
的 特征 是 一 种 功能 函数 ， 完 成 标记 到 诸如 字符 长 度 、 字 符 类 型 等 具体 值 的 映射 ， 关 系 类 型 的 特征 
将 一 个 标记 映射 到 另 一 个 标记 ， 例 如 输入 标记 的 上 下 文 标记 。 学 习 算 法 开始 于 一 组 实例 并 动态 添 
加 预测 以 尽 可 能 多 地 覆盖 正面 实例 ， 尽 可 能 少 地 履 盖 负面 实例 。 

(2) 基于 包装 器 归纳 方式 的 信息 抽取 

包装 器 (Wrapper) 实质 是 一 个 用 于 信息 抽取 的 计算 机 程序 ， 是 针对 某 一 特定 数据 源 的 抽取 系 
统 ， 由 一 系列 的 抽取 规则 以 及 应 用 这 些 规则 的 程序 代码 组 成 ， 其 目的 是 用 于 数据 的 提取 和 分 析 ， 
是 信息 集成 系统 中 一 个 重要 组 件 。 包 装 器 的 任务 是 采用 一 系列 规则 ， 将 用 户 所 关心 的 信息 从 Web 
页 面 中 抽取 出 来 。 包 装 器 规则 的 生成 依赖 于 原 网 页 或 其 后 台数 据 库 的 数据 模式 。 一 个 包装 器 只 能 
处 理 一 种 特定 的 信息 源 。 它 更 注重 于 文本 结构 和 表格 格式 的 分 析 ， 针 对 性 强 ， 但 可 扩展 性 较 差 。 
由 于 一 个 包装 器 只 能 处 理 一 种 特定 的 信息 源 ， 所 以 若 从 几 个 不 同 的 信息 源 中 抽取 信息 ， 就 需要 一 
系列 的 包装 器 集 。 该 类 信息 抽取 不 但 对 页 面 结构 有 所 依赖 ， 而 且 对 页 面 内 容 也 有 所 依赖 ， 要 想 获 
得 精确 的 抽取 规则 必须 进行 大 量 的 样本 训练 。 这 样 使 得 信息 抽取 的 工作 量 巨大 ， 同 时 也 使 其 可 重 
用 性 较 差 。 应 用 包装 器 的 信息 抽取 信息 通常 包括 规则 库 、 规 则 执行 模块 和 信息 转换 模块 。 图 3.1 
显示 了 应 用 包装 器 来 进行 信息 抽取 的 模型 架构 。 
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图 3.1 包装 器 模型 结构 


(3) 基于 HTML 结构 的 信息 抽取 

Web 信息 抽取 的 主要 对 象 是 Web 页 面 ， 这 些 页 面 通常 是 由 HTML 标记 语言 进行 编写 的 ， 具 
有 非常 清晰 的 层次 结构 。 基 于 HTML 结构 的 信息 抽取 便 是 利用 了 页 面 的 结构 来 进行 信息 的 定位 。 
在 此 方式 的 信息 抽取 中 ，Web 页 面 通过 转换 器 解析 成 反映 HTML 结构 的 DOM 树 ， 再 通过 某 种 方 
法 把 用 户 想 要 抽取 的 数据 定位 到 该 DOM 树 的 层次 位 置 上 ， 然 后 利用 正则 表达 式 等 匹配 技术 来 得 
到 些 具体 位 置 上 的 数据 。 该 类 信息 抽取 由 于 利用 了 HTML 的 结构 特征 ， 其 抽取 的 准确 率 和 召回 率 
都 比 前 两 类 抽取 方法 高 ， 同 时 也 适用 于 各 个 不 同 的 知识 领域 。 但 同时 由 于 现 阶段 网 页 的 规范 程度 
较 差 ，HTML 页 面 的 结构 不 够 规范 ， 这 使 得 依赖 网 页 结构 的 抽取 方法 对 那些 经 常 发 生 改变 的 目标 
网 页 变 得 不 再 可 行 。 

(4) 基于 本 体 的 信息 抽取 

基于 本 体 的 信息 抽取 是 指 将 本 体 论 应 用 到 信息 抽取 中 的 一 种 抽取 方法 ， 它 利用 本 体 对 数据 本 
身 的 描述 信息 实现 抽取 。 对 页 面 的 结构 的 依赖 较 少 ， 因 此 容易 处 理 网 页 结构 变化 的 情况 ， 这 种 方 
法 的 基础 和 核心 是 本 体 的 构建 ， 如 何 构造 出 良好 的 面向 应 用 领域 的 本 体 对 提高 信息 抽取 的 精确 度 
有 直接 的 影响 。 一 般 情 况 下 ， 本 体 的 构建 是 由 领域 知识 专家 通过 对 特定 领域 的 调研 分 析 采 用 人 工 
方式 定义 而 成 的 。 本 体 中 通常 需要 包括 对 象 的 模式 信息 、 常 值 、 关 键 字 等 。 本 体 构 建 完成 后 ， 根 
据 本 体 中 的 常 值 和 关键 字 的 描述 信息 产生 抽取 规则 ， 对 每 个 无 结构 的 文本 块 进行 抽取 获得 各 语义 
项 的 值 。 

基于 本 体 的 信息 抽取 理论 上 说 只 要 本 体 构 建 得 足够 的 强大 丰富 ， 系 统 便 能 针对 某 个 领域 的 网 
页 进行 准确 的 抽取 而 不 用 依赖 页 面 的 结构 。 但 是 本 体 的 构建 通常 需要 大 量 的 专业 知识 和 对 领域 的 
透彻 理解 ， 工 作 量 极 大 。 而 且 普 通用 户 很 难 参与 其 中 。 

(5) 基于 HMM (Hidden Markov Model) 的 信息 抽取 

HMM (Hidden Markov Model， 隐 马尔 可 夫 模 型 是 最 近 应 用 最 广泛 的 抽取 知识 表达 模型 ， 
它 用 来 描述 一 个 含有 隐 含 未 知 参数 的 马尔 可 夫 过 程 。 其 难点 是 从 可 观察 的 参数 中 确定 该 过 程 的 隐 
含 参 数 。 然 后 利用 这 些 参 数 来 作 进一步 的 分 析 。HMM 最 初 的 应 用 之 一 是 开始 于 20 世纪 70 年 代 
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中 期 的 语音 识别 。HMM 成 熟 的 学 习 算法 和 坚实 的 统计 基础 ， 使 得 它 成 为 信息 抽取 中 一 种 成 功 的 
模型 。 基 于 这 种 模型 抽取 技术 的 研究 主要 集中 在 两 个 方面 。 首 先 从 数据 中 研究 学 习 模型 结构 ， 这 
通常 是 以 手工 选 定 方式 或 从 训练 数据 中 学 习 得 到 ; 其 次 ， 根 据 给 定 的 或 者 训练 获得 的 模型 对 未 标 
记 的 数据 进行 识别 。 其 中 将 已 标注 数据 用 来 训练 HMM 模型 ， 未 标记 的 数据 结合 到 训练 数据 中 来 
增 大 模型 训练 量 ， 以 学 习 更 好 的 模型 参数 。 


(6) 基于 XML 的 信息 抽取 
基于 XML 的 信息 抽取 是 运用 XML 的 相关 技术 以 XML 格式 的 数据 为 数据 源 进行 抽取 处 理 。 

由 于 抽取 的 目标 是 Web 网 页 ， 而 Web 页 上 的 数据 一 般 是 以 HTML 格式 存在 的 ， 所 以 它 通常 先 将 
页 面 其 转换 为 XML 的 格式 再 进行 后 续 抽取 。 基 于 XML 的 Web 数据 抽取 流程 为 : 从 Web 网 页 上 
获得 HTML 格式 的 页 面 文档 , 然后 将 其 转换 为 XHTML 文件 。 再 用 编写 好 的 特定 XSLT 文件 对 目 
标 文 件 进行 映射 处 理 得 到 满足 用 户 需 求 的 XHTML 文件 ; 或 为 了 使 XSLT 文件 更 加 通用 ， 需 要 先 
用 DOM 按照 分 析 得 来 的 算法 对 XHTML 文件 的 节点 进行 过 滤 选 择 以 缩小 XSLT 的 映射 范围 ， 最 
后 将 该 文档 存储 于 结构 化 数据 库 中 ， 如 图 3.2 所 示 。 
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图 3.2 XML 信息 抽取 


4. 广 域 Web 搜索 


从 Web 上 获取 可 靠 的 数据 源 是 进行 Web 数据 抽取 的 第 一 步 , 在 寻求 健壮 解决 方案 的 过 程 中 ， 
抽取 可 用 的 、 最 可 靠 和 最 稳定 的 数据 源 ， 使 工作 变 得 最 简单 。 因 而 考虑 以 下 这 些 要 素 非常 重要 ; 


日 数据 源 是 否 是 在 可 靠 的 网 络 连接 上 生产 可 靠 的 数据 ? 
® 数据 源 从 现在 起 将 存在 多 久 ? 
日 数据 源 的 布局 有 多 稳定 ? 


Web 上 的 数据 变动 性 很 大 ， 有 时 结构 也 会 发 生 改变 ， 所 以 通常 我 们 选择 政府 网 站 、 大 型 商业 
网 站 、 大 型 行业 性 网 站 作为 Web 数据 来 源 。 这 也 符合 人 们 的 习惯 。 人 们 为 了 获取 更 多 明确 的 、 实 
时 更 新 的 信息 ， 往 往 是 直接 进入 到 一 些 特定 的 站 点 ， 进 行 站 点 内 搜索 。 而 且 对 于 一 个 组 织 来 说 ， 
因为 其 涉及 如 何 有 效 搜索 组 织 内 部 文档 ，Intranet 搜索 的 重要 性 也 日 益 增 加 。 

每 天 有 成 二 上 万 的 人 通过 像 Google 之 类 的 搜索 引擎 在 万 维 网 上 直接 寻找 信息 , 搜索 引擎 总 会 





84 


第 3 章 数据 抽取 和 清洗 


把 相关 的 结果 返回 给 用 户 。 广 域 Web 搜索 引擎 的 算法 是 通过 分 析 Web 页 面 间 的 链接 结构 而 得 来 
的 。PageRank 算法 和 HITS 算法 是 两 种 影响 相当 广泛 的 链接 分 析 算法 。 许 多 学 者 在 此 基础 上 又 提 
出 了 一 些 衍生 算法 。 


(1) 广 域 Web 链接 结构 分 析 

Web 是 一 个 超 文本 集合 ， 且 页 面 间 的 链接 是 有 方向 的 ， 因 此 根据 图 论 中 有 向 图 的 定义 ，Web 
可 用 称 为 链接 图 的 有 向 图 来 建 模 。 传 统 的 方法 是 以 页 面 粒度 来 对 链接 图 建 模 : 结 点 表示 页 面 ， 有 
向 边 表示 从 一 个 页 面 到 另 一 个 页 面 存在 一 条 或 多 条 链接 。 由 于 一 个 Web 文档 通常 是 由 其 Web 站 
点 作者 创作 的 多 个 页 面 链 接 而 成 的 超 文本 文档 ， 因 此 也 可 以 用 站 点 粒度 来 对 链接 图 建 模 : 结 点 表 
示 站 点 ， 有 向 边 表 示 从 一 个 站 点 中 至 少 有 一 个 页 面包 含 一 个 或 多 个 超 链接 指向 另 一 个 站 点 中 的 某 
几 个 页 面 ， 此 时 称 为 站 点 图 。 

Web 虽然 是 一 个 分 散 的 信息 网 络 ， 但 大 量 研究 表明 ，Web 的 链接 结构 具有 自 组 织 性 : 在 全 局 
上 ， 信 息 源 〈 页 面 或 站 点 ) 间 通 过 超 链接 按 相 同 或 相关 的 内 容 主题 自然 地 聚合 在 一 起 ， 形 成 一 个 
个 群落 ， 和 群落 内 部 的 信息 源 之 间 密 集 链 接 ， 而 群落 之 间 硕 玻 链 接 ， 甚 至 根本 不 链接 ;在 一 个 群落 
内 部 ， 信 息 源 之 间 的 链接 结构 也 有 规律 和 特征 ， 一 个 群落 主要 由 两 类 信息 源 组 成 ， 一 类 主要 被 别 
的 信息 源 所 链接 (包含 高 质量 主题 内 容 的 信息 源 )， 另 一 类 则 主要 链接 到 别 的 信息 源 (提供 对 高 质 
量 主 题 内 容 存 取 的 信息 源 )， 它 们 均 是 用 户 想 要 的 好 信息 源 。Web 的 这 种 自 组 织 性 为 链接 分 析 提 
供 了 依据 ， 链 接 分 析 基 于 以 下 一 个 或 两 个 简单 的 假设 。 

日 从 页 面 A 到 页 面 B 的 一 条 超 链接 是 页 面 A 作者 对 页 面 B 的 一 种 推荐 和 称赞 ， 意 味 着 权威 

性 或 质量 。 
@ 若 页 面 A 与 页 面 B 被 一 条 超 链 链接 ， 则 它们 可 能 有 相同 或 相近 的 主题 ， 意 味 着 相关 性 。 


大 多 数 像 Google AltaVista 这 样 的 第 二 代 搜 索引 擎 已 在 其 文档 数据 库 中 维护 了 页 面 间 的 链接 
信息 ， 链 接 分 析 在 Web 信息 检索 中 已 普遍 运用 。 


(2) 广 域 Web 搜索 经 典 算法 
经 典 的 PageRank 算法 和 HITS 算法 是 两 种 应 用 相当 广泛 的 广 域 Web 搜索 算法 。 


。 PageRank 算法 


PageRank 算法 是 最 早 并 且 最 成 功 地 将 链接 分 析 技 术 应 用 到 商业 搜索 引擎 中 的 算法 , 它 的 基本 
出 发 点 是 试图 为 搜索 引擎 所 涵盖 的 所 有 网 页 赋予 一 个 量化 的 价值 度 。 每 个 网 页 被 量化 的 价值 通过 
一 种 递归 的 方式 来 定义 ， 由 所 有 链接 向 它 的 网 页 的 价值 程度 所 决定 。 显 然 ， 一 个 被 很 多 高 价值 网 
页 所 指向 的 网 页 也 应 存在 到 其 他 网 页 的 链接 ， 那 么 这 种 网 页 将 成 为 沉积 网 页 ， 并 使 得 上 述 这 种 转 
移 的 过 程 在 沉积 网 页 上 永远 终止 。 解 决 这 个 问题 的 方法 很 简单 ， 假 如 一 个 随机 冲浪 者 遇 到 了 这 种 
沉积 网 页 ， 那 么 他 可 以 随机 地 挑选 另 一 个 网 页 并 继续 他 的 浏览 。 为 了 对 那些 不 是 沉积 的 网 页 也 一 
视 同仁 ， 这 种 类 型 的 随机 转移 应 该 能 以 相同 的 概率 在 任何 一 个 网 页 上 发 生 。 根 据 这 种 方法 对 网 页 
排序 以 后 ， 搜 索引 擎 就 可 以 决定 以 一 种 什么 样 的 顺序 将 结果 返回 给 查询 用 户 。 
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。 HITS 算法 


HITS 算法 是 一 种 分 析 网 络 中 网 页 间 链 接 结构 从 而 确定 权威 性 网 页 和 中 心 网 页 的 链接 分 析 算 
法 理解 HITS 算法 是 Web 结构 挖掘 中 最 具有 权威 性 和 使 用 最 广泛 的 算法 HITS(Hypertext-Induced 
Topic Search) 算法 是 利用 Web 的 链接 结构 进行 挖掘 典型 算法 ， 其 核心 思想 是 建立 在 页 面 链 接 关 
系 的 基础 上 ， 对 链接 结构 的 改进 算法 。HITS 算法 通过 两 个 评价 权 值 一 一 内 容 权威 度 (Authority) 
和 链接 权威 度 (Hub) 一 一 来 对 网 页 质量 进行 评估 。 其 基本 思想 是 利用 页 面 之 间 的 引用 链 来 挖掘 
隐 含 在 其 中 的 有 用 信息 (如 权威 性 )， 具 有 计算 简单 且 效 率 高 的 特点 。HITS 算法 认为 对 每 一 个 网 
页 应 该 将 其 内 容 权威 度 和 链接 权威 度 分 开 来 考虑 ， 在 对 网 页 内 容 权 威 度 做 出 评价 的 基础 上 再 对 页 
面 的 链接 权威 度 进行 评价 ， 然 后 给 出 该 页 面 的 综合 评价 。 内 容 权 威 度 与 网 页 自身 直接 提供 内 容 信 
息 的 质量 相关 ， 被 越 多 网 页 所 引用 的 网 页 ， 其 内 容 权威 度 越 高 ， 链 接 权威 度 与 网 页 提供 的 超 链接 
页 面 的 质量 相关 ， 引 用 越 多 高 质量 页 面 的 网 页 ， 其 链接 权威 度 越 高 。 


(3) 广 域 Web 搜索 总 结 

可 以 对 广 域 Web 搜索 的 两 种 经 典 算法 作 进一步 的 探讨 和 比较 。 

PageRank 算法 实质 上 是 一 种 通过 离线 对 整个 互联 网 结构 图 进行 肾 迭代 的 方法 。PageRank 所 
计算 出 的 价值 度 的 值 实际 上 就 是 互联 网 结构 图 经 过 修改 后 的 相 邻 矩阵 的 特征 值 。 对 这 些 值 的 计算 
有 非常 有 效 的 方法 (事实 上 ， 仅 需要 若干 次 的 迭代 计算 即 可 以 得 到 ) ， 因 此 能 够 很 好 地 应 用 到 整 
个 互联 网 规模 的 实践 中 。 这 种 方法 的 另 一 个 主要 优点 是 所 有 的 处 理 过 程 都 是 离线 进行 的 ， 因 此 不 
会 为 在 线 的 查询 过 程 付出 额外 的 代价 。 但 是 ，PageRank 算法 存在 一 个 大 的 问题 ， 即 价值 度 的 计算 
不 是 针对 查询 的 。 对 于 某 个 特定 主题 的 查询 ， 在 返回 结果 中 一 些 与 主题 无 关 的 网 页 将 会 排 在 较 前 
的 位 置 。 这 类 问题 对 PageRank 算法 的 影响 则 有 必要 作 更 进一步 的 研究 。 

HITS 算法 在 概念 的 定义 上 比 PageRank 算法 多 提出 了 一 个 中 心性 网 页 的 概念 。 通 过 中 心 网 页 
和 权威 网 页 的 相互 作用 , HITS 算法 更 好 地 描述 了 互联 网 的 一 种 重要 组 织 特点 : 权威 网 页 之 间 通 常 
是 通过 中 心 网 页 而 彼此 发 生 关联 的 。HITS 算法 和 PageRank 相似 ， 也 是 通过 夫 代 的 方法 计算 相 邻 
和 矩阵 的 特征 向 量 。 但 HITS 算法 所 针对 的 不 是 整个 互联 网 结构 图 ， 而 是 特定 查询 主题 的 互联 网 子 
图 。 规模 上 的 极 大 减 小 可 以 使 HITS 算法 的 迭代 收敛 速度 比 PageRank 要 快 得 多 。 但 因为 与 查询 相 
关 ， 所 以 查询 过 程 需要 考虑 排序 的 代价 。 另 外 ， 除 非 为 HITS 算法 中 所 考虑 的 链接 赋予 适当 的 权 
值 ， 和 否则 ， 相 邻 矩 阵 的 主 特征 向 量 并 不 能 反映 最 合理 的 网 页 价值 度 排 列 。 并 且 ， 即 便 对 子 图 中 的 
边 赋予 了 适当 的 权重 , 如 果子 图 的 相 邻 矩 阵 是 一 个 可 约 减 的 矩阵 (例如 图 中 有 多 个 不 连通 的 部 分 》， 
那么 很 多 有 价值 的 网 页 仍 将 无 法 在 主 特征 向 量 中 得 到 体现 。 更 为 严重 的 是 ， 在 对 很 多 广义 主题 进 
行 查询 时 , HITS 算法 会 错误 地 将 许多 与 主题 无 关 的 网 页 赋予 很 高 的 价值 度 , 发 生 主题 漂移 。 最 后 ， 
应 该 注意 到 HITS 算法 所 作用 的 查询 子 图 是 根据 查询 关键 词 在 线 构造 的 。 通 过 常规 的 方法 将 无 法 
满足 在 线 查询 响应 时 间 的 要 求 ， 但 是 ， 如 果 借助 专用 的 连接 服务 器 ， 查 询 子 图 的 构建 时 间 将 是 毫 
秒 级 的 。 


5. 小 范围 Web 搜索 
为 了 获取 更 多 明确 的 、 实 时 更 新 的 信息 ， 人 们 往往 是 直接 进入 到 一 些 特定 的 站 点 对 站 点 内 进 
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行 搜索 。 对 于 一 个 组 织 来 说 ，Intranet 搜索 的 重要 性 日 益 增加 ， 因 为 其 涉及 如 何 有 效 搜索 组 织 内 部 
文档 。 我 们 将 发 生 在 网 络 中 一 个 闭合 子 空间 的 搜索 定义 为 小 范围 Web 搜索 , 常见 的 情况 是 在 一 个 
站 点 内 搜索 或 者 是 Intranet 搜索 。 现 在 应 用 于 小 范围 Web 搜索 的 产品 生产 方兴未艾 ， 例 如 ， 
AltaVista、Berkeley 的 Cha-Cha 搜索 引擎 等 。 然 而 人 们 多 数 使 用 的 是 广 域 Web 搜索 引擎 ， 由 于 其 
并 不 能 成 功 地 运用 于 小 范围 Web 搜索 ， 所 以 对 于 小 范围 Web 搜索 的 研究 已 提 到 了 日 程 上 来 。 我 
们 分 析 小 范围 Web 链接 结构 的 特点 ， 提 出 一 种 应 用 于 小 范围 Web 搜索 的 改进 HITS 算法 ， 并 通 
过 和 矩阵 理论 以 及 实验 证 明 是 成 立 的 。 

现今 存在 的 大 多 数 小 范围 Web 搜索 引擎 使 用 和 万 维 网 搜索 引擎 相同 的 技术 , 因而 存在 一 些 性 
能 问题 。 根 据 一 份 Forrester 调查 报告 显示 ， 搜 索引 擎 在 某 个 站 点 进行 搜索 时 ， 往 往 因 为 返回 太 多 
不 相关 的 内 容 而 不 符合 用 户 的 需要 。 在 调查 中 ,对 50 个 站 点 进行 了 测试 ， 没 有 一 个 站 点 得 到 满意 
的 结果 。 而 且 ， 小 范围 Web 任务 中 ， 使 用 基于 链接 分 析 的 方法 几乎 达 不 到 预计 的 性 能 。 这 些 都 表 
明了 现 有 的 小 范围 Web 搜索 技术 存在 很 大 的 弹性 修改 范围 。 

造成 小 范围 Web 搜索 引擎 低 性 能 主要 有 以 下 几 个 方面 的 原因 。 


@ 基于 关键 词 相 似 度 的 查询 方法 存在 一 些 缺 陷 。 例 如 ， 查 询 词 太 短 ， 使 得 匹配 的 空间 很 大 ， 
返回 的 页 面 虽然 包含 查询 信息 ， 但 页 面 本 身 没 有 什么 内 容 或 者 包含 的 内 容 价值 不 是 很 大 。 
另外 ， 查 询 词 的 一 词 多 义 ， 让 搜索 引擎 将 不 同 领域 的 内 容 混杂 在 一 起 提供 给 用 户 ， 显 然 这 
样 的 页 面 质量 不 高 。 

® ”由 于 万 维 网 的 链接 结构 与 小 范围 网 络 的 链接 结构 并 不 完全 一 样 , 因而 成 功 运用 于 万 维 网 的 
链接 分 析 技 术 不 能 直接 运用 于 小 范围 网 络 。 

e 虽然 人 们 知道 用 户 访问 日 志 包含 大 量 网 页 重要 性 的 信息 ， 然 而 ， 除 了 DirectHit 之 外 ， 几 
乎 没有 其 他 的 网 站 在 这 方面 进行 研究 。 


现在 对 于 小 范围 Web 搜索 的 研究 已 提 到 了 日 程 上 来 ， 应 用 于 小 范围 Web 搜索 的 产品 生产 方 
兴 未 艾 。 大 多 数 产品 使 用 的 是 “全 文本 搜索 ”技术 ， 这 种 技术 针对 查询 检索 出 大 量 包含 相同 关键 
词 的 文档 ， 然 后 根据 关键 词 相似 度 对 这 些 文档 进行 重要 性 排序 。 例 如 ，AltaVista 提供 了 一 个 基于 
内 容 的 站 内 搜索 引擎 ，Berkeley 的 Cha-Cha 搜索 引擎 通过 将 搜索 结果 进行 分 类 从 而 反映 出 未 知 的 
Intranet 结构 。M. Levenc 等 人 提出 来 的 一 种 返回 链接 页 面 序列 的 浏览 系统 ， 帮 助 终端 用 户 有 效 地 
浏览 结果 。 这 些 系统 都 不 使 用 链接 分 析 技 术 对 于 搜索 结果 进行 重要 性 排序 ， 因 而 还 存在 相当 大 的 
空间 来 提高 搜索 的 精度 。 

因为 直接 将 链接 分 析 技术 应 用 于 小 范围 Web 搜索 效果 不 佳 , 一 些 系统 将 它们 的 重点 转移 到 用 
户 的 使 用 信息 上 。 例 如 ，DirectHit 就 是 一 个 典型 的 例子 ， 它 利用 因特网 上 每 天 用 户 所 作出 的 成 千 
上 万 的 决策 来 为 搜索 者 提供 相关 度 更 高 、 组 织 更 好 的 搜索 结果 。 它 是 基于 “点 击 次 数 ” 的 概念 ， 
现在 已 被 Lycos、Hotbot、MSN、Infospac 等 大 约 20 多 个 搜索 引擎 使 用 。 假 设 的 前 提 是 : 根据 某 
个 特定 的 查询 ， 若 一 个 网 页 被 访问 的 次 数 越 多 ， 则 排序 的 权 值 越 高 。 这 种 方法 还 有 一 些 缺 陷 。 首 
先 ， 它 需要 大 量 的 用 户 日 志 仅仅 是 为 了 少数 的 热门 查询 服务 。 其 次 ， 它 很 容易 陷入 到 一 个 反馈 死 
循环 中 ， 当 访问 一 个 热门 网 页 时 会 使 其 权 值 增加 ， 而 权 值 的 增加 又 使 得 该 网 页 更 加 热门 。 

HITS 是 基于 链接 结构 ， 从 而 计算 特征 向 量 来 分 辨 权威 网 页 的 链接 分 析 算 法 。 直 观 上 来 说 ,一 
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个 有 很 多 入 度 的 网 页 拥有 高 推荐 度 ， 因 而 有 较 高 的 权威 性 。 因 而 ， 链 接 分 析 算法 有 一 个 基本 的 前 
提 : 整个 万 维 网 被 看 作成 一 张 推 荐 图 ， 每 一 条 链接 代表 一 次 推荐 。 也 就 是 说 ， 从 网 页 X 指向 网 页 
Y 的 一 条 链接 意味 着 网 页 Y 为 网 页 X 的 作者 所 推崇 。 

对 于 万 维 网 来 说 ， 链 接 分 析 算法 的 推荐 假设 在 大 多 数 情况 下 是 正确 的 ， 因 为 链接 确实 在 相当 
大 程度 上 代表 了 作者 的 判断 。 当 然 也 不 排除 某 些 不 是 为 了 推荐 的 目的 而 创建 的 链接 ， 但 是 它们 的 
影响 基本 上 可 以 忽略 不 计 。 

然而 ，HITS 算法 的 推荐 假设 在 小 范围 Web 应 用 时 却 普 遍 不 成 立 。 在 小 范围 Web 中 ， 大 多 数 
的 链接 比 万 维 网 中 的 链接 要 有 规律 。 多 数 链 接 都 是 从 父 节点 指向 子 节点 ， 或 者 是 由 叶子 节点 指向 
根 节 点 。 其 主要 的 原因 是 : 小 范围 Web 是 由 为 数 不 多 的 作者 所 创建 ， 链 接 创建 的 目的 往往 是 为 了 
组 织 站 点 内 容 使 之 成 为 一 种 继承 或 线性 结构 。 因 而 ， 计 算 入 度 的 方法 并 不 能 反映 页 面 的 权威 性 ， 
使 得 已 有 的 HITS 算法 不 适用 于 小 范围 Web 搜索 。 

在 小 范围 Web 中 , 我 们 将 链接 分 为 浏览 链接 和 推荐 链接 两 种 。 后 者 通常 用 于 链接 分 析 。 然而 ， 
仅仅 过 滤 出 浏览 链接 远 远 达 不 到 目的 ， 因 为 剩余 的 推荐 链接 并 不 完全 。 换 句 话 说， 通过 挖掘 用 户 
的 访问 日 志 可 以 在 小 范围 Web 中 发 现 大 量 的 间接 推荐 链接 。 

HITS 算法 在 小 范围 Web 搜索 的 情况 下 表现 并 不 令 人 满意 ， 主 要 体现 在 : 


@ HITS 算法 推荐 假设 理论 不 适用 于 小 范围 Web 的 链接 结构 ， 在 小 范围 Web 中 ， 链 接 的 构 
造 只 是 为 了 组 织 整 个 Web。 
e@ HITS 算法 整个 的 构建 都 基于 初始 集 的 选取 ， 而 初始 集 的 扩充 仅仅 是 经 过 了 一 次 ， 因 而 出 
现 遗 漏 的 页 面 有 很 大 几率 。 
@ 算法 所 构造 的 输入 数据 为 布尔 型 矩阵 ， 其 主 特征 向 量 并 不 能 反映 最 合理 的 网 页 价值 度 排 
列 。 最 后 ， 如 果 图 中 包含 了 若干 个 不 连通 的 子 图 ,那么 很 多 有 价值 的 网 页 将 无 法 在 邻接 敌 
阵 的 主 特征 向 量 中 得 到 体现 。 
@ 更 为 严重 的 是 ， 在 对 很 多 广义 主题 进行 查询 时 ，HITS 算法 会 错误 地 将 许多 与 主题 无 关 的 
网 页 赋予 很 高 的 价值 度 。 
归纳 HITS 算法 应 用 于 小 范围 Web 的 局 限 性 主要 有 以 下 两 个 特征 : 图 的 不 完整 性 和 非 加 权 输 
入 。 
针对 上 述 分 析 ， 可 以 用 一 种 适用 于 小 范围 Web 搜索 的 改进 HITS 算法 。 该 算法 根据 小 范围 
Web 的 特殊 链接 结构 ， 依 据 分 解 的 用 户 浏览 日 志 ， 首 先 构 造 含有 间接 链接 的 有 向 图 ， 这 样 分 解 用 
户 日 志 可 以 避免 干扰 数据 ， 构 造 含有 间接 链接 的 有 向 图 可 以 有 效 地 解决 图 中 包含 了 若干 个 不 连通 
子 图 的 问题 ， 同 时 ， 可 以 清楚 地 发 现 页 面 间 的 关系 ， 构 造 较 完整 的 初始 集 。 接 着 ， 将 HITS 算法 
的 输入 数据 构造 为 两 网 页 的 链接 权 值 矩阵 ， 链 接 加 权 是 根据 用 户 访问 网 页 的 频率 ， 从 而 达到 不 通 
过 直接 询问 用 户 却 合 并 用 户 反 馈 的 目的 。 


6. Web 数据 抽取 过 程 


Internet 是 一 个 巨大 的 信息 仓库 ， 包 含 丰富 的 信息 资源 和 数据 ， 这 些 数据 多 以 HTML 页 面 形 
式 存在 于 不 同 的 网 站 。 然 而 HTML 的 设计 目的 是 用 于 描述 数据 如 何 显示 ， 而 不 是 用 来 描述 数据 本 


88 


第 3 章 数据 抽取 和 清洗 


身 ， 没 有 严格 的 结构 限制 和 明确 的 数据 类 型 定义 。 和 存储 在 关系 型 数据 库 中 的 数据 不 同 ， 这 些 存 
在 于 HTML 页 面 中 的 数据 是 半 结 构 化 或 非 结构 化 的 , 无 法 直接 利用 。Web 数据 抽取 技术 正 是 在 这 
种 背景 下 产生 的 。 

Web 数据 抽取 的 主要 目的 是 从 半 结 构 化 或 非 结 构 化 的 数据 中 抽取 出 特定 的 事实 信息 。 比 如 从 
产品 销售 网 站 上 提取 产品 的 名 称 、 规 格 、 价 格 、 数 量 等 信息 ; 从 股票 行情 网 站 上 提取 股票 代码 、 
名 称 、 价 格 、 交 易 量 等 信息 ; 从 气象 网 站 上 提取 城市 代码 、 地 名 、 天 气 、 温 度 、 湿 度 、 风 力 、 风 
向 以 及 未 来 几 天 的 预报 等 。 当 这 些 抽取 出 来 的 数据 采用 结构 化 形式 表示 之 后 ， 可 以 方便 地 保存 到 
数据 库 、XML 文件 供 其 他 应 用 系统 使 用 。 

Web 数据 抽取 技术 主要 包括 网 页 获取 、 抽 取 方 法 、 抽 取 规 则 、 数 据 校 验 与 数据 集成 等 内 容 。 
该 技术 的 核心 是 从 半 结 构 化 或 非 结 构 化 数据 中 ， 识 别 出 目 标 系统 需要 的 数据 ， 并 将 其 转化 为 结构 
化 、 语 义 清晰 的 格式 。 

为 抽取 特定 网 站 的 Web 数据 , 需要 使 用 一 定 的 方法 , 构建 一 个 基于 该 数据 源 的 适用 的 数据 模 
型 。 虽然 Web 数据 抽取 模型 的 定义 、 结 构 和 使 用 方式 不 同 , 但 都 是 针对 特定 的 一 组 页 面 进行 处 理 ， 

- 般 都 称 为 网 页 包装 器 (Wrapper)。 

包装 器 的 构建 是 数据 抽取 技术 的 核心 内 容 和 关键 技术 ,一 般 地 , 包装 器 由 抽取 规则 (Extraction 
Rules) 和 抽取 器 《Extractor) 两 部 分 构成 。 抽 取 规 则 用 于 描述 数据 抽取 方法 ， 包 括 网 页 结构 、 数 
据 项 定位 、 抽 取 步 又 、 转 换 及 校 验 规 则 ， 以 及 输出 格式 等 。 而 抽取 器 是 用 于 执行 上 述 数 据 抽取 规 
则 的 可 执行 程序 或 其 他 应 用 程序 (如 XML 应 用 程序 )。 其 中 抽取 规则 是 Web 数据 抽取 技术 的 核 
心 。 

完整 的 Web 数据 抽取 系统 一 般 还 包括 网 页 下 载 及 超 链接 分 析 、 预 处 理 、 数 据 完整 性 校 验 、 数 
据 上 映射 等 ， 此 外 还 包括 数据 集成 (Data Integration ) 功能 。 

Web 数据 抽取 过 程 一 般 包 括 5 个 步骤 : 页 面 获取 、 数 据 抽取 、 数 据 校 验 及 转换 、 数 据 存储 、 
数据 集成 。 

(1) 页 面 获 取 

页 面 获取 指 通 过 指定 一 组 Web 页 面 的 网 址 , 或 者 根据 指定 的 超 链 接 导 航 规则 ， 由 抽取 程序 自 
动 卜 行 并 获取 网 页 。 有 时 还 需要 进行 前 置 操 作 ， 比 如 当 访 问 的 页 面 有 权限 保护 或 其 他 限制 时 ， 往 
往 需要 执行 脚本 进行 登录 或 其 他 认证 之 后 才能 访问 页 面 。 

根据 数据 抽取 的 特点 ， 这 些 页 面 可 分 为 两 类 : 一 类 是 数据 页 面 ， 包 含 需要 抽取 的 数据 ;一 类 
是 导航 页 面 ， 包 含 指向 数据 页 面 的 若干 链接 。 典 型 例子 是 多 页 的 产品 列表 页 面 。 在 很 多 情况 下 ， 
数据 页 面 中 也 包含 了 导航 信息 ， 此 时 两 类 页 面 在 物理 上 组 合 在 一 起 。 有 些 网 站 的 页 面 不 仅仅 使 用 
静态 链接 ， 还 使 用 复杂 了 Web 表单 或 JavaScript 代码 的 形式 实现 链接 导航 。 对 这 种 形式 的 导航 页 
面 ， 一 般 需 要 手工 分 析 页 面 代码 并 编写 相应 的 处 理 程序 。 

(2) 数据 抽取 

获取 页 面 之 后 ， 下 一 步 就 是 数据 抽取 。 数 据 抽取 是 使 用 包装 器 完成 的 核心 功能 ， 主 要 任务 是 
根据 抽取 规则 对 于 Web 页 面 进行 解析 处 理 , 抽取 需要 的 数据 项 。 在 抽取 之 前 ,一 般 还 需 对 HTML 
文件 进行 预 处 理 , 比如 对 HTML 进行 纠 错 和 规范 化 , 或 者 转换 为 XHTML 格式 从 而 以 一 致 性 更 好 
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(3) 数据 校 验 及 转换 

为 了 保证 数据 抽取 的 质量 ， 减 少 无 效 数据 及 数据 规范 性 ， 前 一 步骤 中 获得 的 数据 一 般 还 要 经 
过 数据 校 验 及 转换 之 后 才能 使 用 。 数 据 校 验 的 目的 是 确保 抽取 数据 本 身 的 正确 性 和 完整 性 。 对 于 
明显 的 错误 ， 可 以 通过 正则 表达 式 、 校 验 规则 文件 等 手段 加 以 限制 ， 并 应 用 特定 的 领域 知识 和 机 
器 学 习 等 技术 进行 纠 错 或 将 丢失 的 数据 补充 完整 。 数 据 转换 的 目的 是 保证 数据 的 一 致 性 。 当 从 多 
个 网 站 的 数据 源 抽取 并 集成 数据 时 ， 不 同 的 网 站 可 能 会 使 用 不 同 的 命名 规范 、 不 同 的 表示 方式 以 
及 不 同 的 计量 单位 ， 即 使 在 同一 网 站 往往 也 存在 这 种 不 一 致 现象 。 此 时 应 根据 数据 字典 ， 将 数据 
映射 到 统一 的 标准 格式 来 保证 抽取 数据 的 质量 ， 这 可 以 应 用 领域 知识 ， 使 用 条 件 声明 、 规 则 表达 
式 等 技术 来 实现 。 

(4) 数据 存储 

抽取 得 到 的 数据 可 根据 应 用 系统 的 需求 ， 采 用 不 同 的 方式 进行 存储 。 如 果 得 到 的 关系 形式 的 
数据 可 存储 到 关系 数据 库 中 ， 如 果 需 要 跨 平台 共享 ， 可 使 用 XML 进行 存储 ;如果 需要 以 面向 对 
象 的 形式 存储 数据 ， 也 可 以 用 面向 对 象 数据 库 的 形式 存储 。 还 可 以 使 用 多 种 不 同 的 数据 持久 化 技 
术 来 存储 。 


(5) 数据 集成 

抽取 的 Web 数据 来 源 于 多 个 网 站 时 ， 这 些 页 面 除 格式 不 一 致 ， 数 据 组 成 也 有 不 同 。 即 使 同一 
站 点 ， 也 存在 一 组 逻辑 数据 被 分 割 到 多 个 页 面 的 情况 ， 此 时 应 进行 数据 集成 。 此 外 ， 页 面 中 的 数 
据 一 般 是 后 台 结 构 化 数据 的 一 个 视图 。 例如， 抽取 的 产品 信息 包含 了 供 货 商 的 名 称 、 联 系 电话 等 
信息 ， 即 数据 存在 元 余 信 息 。 这 种 情况 需要 应 用 领域 知识 ， 进 行 关 系 集合 运算 ， 对 数据 实体 进行 
关系 数据 范式 提升 ， 以 消除 数据 元 余 及 数据 异常 。 

原型 系统 主要 分 为 以 下 3 个 部 分 ， 自 下 向 上 分 别 为 基础 数据 层 、 支 撑 服 务 层 和 功能 服务 层 。 


(1) 基础 数据 层 
主要 用 来 存储 原型 系统 中 的 各 种 类 型 数据 。 


@ 疏 虫 疏 取 的 网 页 以 HTML 格式 进行 存储 。 

@ 元 数据 以 XML 格式 进行 存储 ,对 Web 实体 模型 和 各 种 配置 文件 中 包含 的 元 素 进行 定义 。 

图 Web 实体 模型 以 XML 格式 进行 存储 ，Web 实体 模型 中 定义 了 Web 实体 的 模式 信息 以 及 
Web 实体 间 的 联系 。 

@ 配置 文件 以 XML 格式 存储 ， 用 以 指导 支撑 服务 层 的 基本 服务 能 够 自动 地 执行 。 

@ 网 站 注册 文件 以 XML 格式 存储 ， 记 录 了 目标 网 站 的 信息 。 

@ Wrapper 和 Wrapper 注册 文件 以 XML 格式 存储 ， 其 中 ，Wrapper 注册 文件 中 包含 各 个 目 
标 网 站 对 应 的 Wrapper 注册 信息 ，Wrapper 中 存储 了 目标 网 站 各 组 目标 网 页 对 应 的 Wrapper, 即 一 
系列 抽取 规则 。 

@ Web 实体 间 联 系 文件 以 XML 格式 存储 ， 记 录 了 具有 联系 的 Web 实体 对 ， 以 及 相关 的 
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Web 数据 对 象 信息 。 

采样 数据 以 XML 格式 存储 ， 记 录 了 对 各 组 目标 网 页 进行 采样 抽取 的 结果 ， 包 括 模式 信息 
和 Web 数据 对 象 信息 。 

@ 实际 抽取 数据 以 关系 数据 库 格式 存储 , 这 些 数据 为 课题 组 框架 中 的 数据 整合 层 提供 数据 基 
础 ， 有 待 进行 重复 记录 检测 、 数 据 融 合 等 处 理 。 

(2) 支撑 服务 层 

支撑 服务 层 主要 为 功能 服务 层 提供 基础 的 原子 服务 ， 包 括 Web 实体 模型 管理 、 元 数据 管理 、 
配置 文件 管理 、 网 站 发 现 、Deep Web 疏 虫 管理 、SurfaceWeb 疏 虫 管理 、 页 面 分 类 、 页 面 标注 、 
Wrapper 管理 、Web 实体 间 联 系 发 现 及 评价 、Web 实体 间 联 系 产生 和 数据 服务 。 


@ Web 实体 模型 管理 包括 新 建 模型 和 丰富 模型 两 个 部 分 。 新 建 模型 主要 用 于 为 新 发 现 的 Web 
实体 建立 Web 实体 模式 ， 丰富 模型 主要 用 于 对 Web 实体 模型 中 己 有 的 Web 实体 模式 进行 丰富 。 

@ 元 数据 管理 主要 用 于 定义 Web 实体 模型 和 各 个 配置 文件 中 的 基本 数据 项 。 

@ 配置 文件 管理 包括 建立 配置 文件 、 读 取 配 置 文件 、 修 改 配置 文件 和 删除 配置 文件 。 其 中 建 
立 配置 文件 是 在 元 数据 的 指导 下 完成 的 。 

@ 网 站 发 现 主要 用 于 获得 待 抽取 的 目标 网 站 , 网 站 发 现 方法 分 为 两 类 , 一 类 由 业务 专家 手工 
设 定 ， 另 一 类 是 设计 自动 发 现 方法 ， 自 动 对 新 网 站 进行 评估 和 选择 。 

@ Deep Web 爬虫 管理 是 指 ， 针 对 Deep Web 网 站 ， 采 用 有 效 算 法 自动 运 代 地 构建 有 意义 的 
查询 词 ， 通 过 查询 接口 提交 查询 ， 疏 取 Deep Web 页 面 ， 疏 取 后 的 Web 页 面 以 HTML 形式 进行 存 
储 。 

Surface Web 疏 虫 管理 是 指 , 针对 Surface Web 网 站 , 利用 普通 爬虫 疏 取 待 抽取 的 目标 页 面 ， 
疏 取 后 的 页 面 以 HTML 形式 进行 存储 。 

@ 页 面 分 类 主要 对 从 目标 网 站 扑 取 的 网 页 根据 待 抽 取 Web 实体 的 类 型 以 及 网 页 模板 类 型 进 
行 分 类 ， 以 便 学 习 生 成 包装 器 ， 进 行 数据 抽取 。 

页 面 标注 主要 用 于 对 采样 页 面 进行 标注 , 识别 出 Web 数据 对 象 中 的 数据 标签 和 数据 元 素 ， 
为 构造 包装 器 提供 训练 样 例 。 

@ Wrapper 管理 包括 生成 Wrapper、 注 册 Wrapper、 选 择 Wrapper 和 执行 Wrapper。 其 中 生成 
Wrapper 是 指 利用 目标 网 站 中 的 训练 样 例 ， 结 合 现 有 的 Wrapper 生成 技术 ， 生 成 目标 网 页 对 应 的 
Wrapper。 注 册 Wrapper 是 指 将 各 个 Wrapper 的 信息 写 到 Wrapper 注册 文件 中 ,目的 是 当 执 行 大 规 
模 数据 抽取 时 ， 系 统 自 动 地 根据 Wrapper 注册 文件 中 的 注册 信息 ， 为 各 个 网 站 目标 网 页 选择 对 应 
的 Wrapper， 执 行 大 规模 数据 抽取 : 选择 Wrapper 是 指 在 Wrapper 注册 文件 中 检索 出 目标 网 站 中 
目标 网 页 对 应 的 Wrapper; 执行 Wrapper 是 指 根据 Wrapper 中 的 抽取 规则 ， 自 动 地 抽取 出 目标 网 
页 中 的 待 抽取 数据 。 

Web 实体 间 候 选 联系 发 现 与 评价 主要 用 于 发 现 Web 实体 间 的 候选 联系 ， 并 利用 相关 评价 
指标 对 候选 联系 进行 评价 ， 将 具有 高 置信 度 的 候选 联系 返回 给 业务 专家 。 

@@ Web 实体 间 联系 产生 是 指 在 业务 专家 的 参与 下 ， 完 成 对 Web 实体 间 联 系 的 确认 和 描述 ， 
同时 将 新 发 现 的 Web 实体 间 联 系 丰富 至 Web 实体 模型 中 。 
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@ 数据 服务 主要 用 于 对 不 同类 型 的 数据 (HTML、XML 和 关系 数据 库 等 ) 进行 访问 和 操作 ， 
支撑 服务 层 的 其 他 所 有 服务 均 需 要 通过 数据 服务 来 访问 基础 数据 层 的 数据 。 


(3) 功能 服务 层 
功能 服务 层 是 该 原型 系统 从 逻辑 层面 提供 的 功能 服务 ， 包 括 网 页 爬 取 、 采 样 抽取 、 大 规模 抽 
取 和 Web 实体 间 联 系 发 现 。 


@ 网 页 疏 取 首先 调用 支撑 服务 层 的 网 站 发 现 ， 获 得 目标 网 站 名 称 。 然 后 ,根据 目标 网 站 的 类 
型 ， 分 别 选 择 Deep Web 爬虫 管理 服务 和 Surface Web 爬虫 管理 服务 完成 对 目标 网 页 的 获取 。 

@ 采样 抽取 通过 读 取 相应 配置 文件 中 的 信息 ， 例 如 ， 采 样 网 站 名 称 、 采 样 Web 实体 名 称 、 
采样 网 页 个 数 等 ， 获 取 采 样 规则 ， 然 后 ， 利 用 页 面 标注 服务 对 目标 网 站 中 的 采样 页 面 进行 自动 标 
注 ; 最 后 ， 对 采样 网 页 进行 抽取 ， 得 到 采样 网 页 中 关于 待 抽取 Web 实体 的 模式 信息 和 具体 Web 
数据 对 象 。 同 时 ,利用 Wrapper 管 理 中 的 Wrapper 生 成 服务 ,学 习 得 到 目标 网 站 对 应 页 面 的 Wrapper， 
写 入 至 Wrapper 注册 文件 。 

图 大 规模 抽取 通过 读 取 相应 配置 文件 中 的 信息 ， 包 括 目标 网 站 的 名 称 、 待 抽取 的 Web 实体 
名 称 ; 然后 , 利用 Wrapper 管理 中 的 Wrapper 选择 服务 , 为 目标 网 站 目标 网 页 选择 对 应 的 Wrapper; 
最 后 ， 利 用 Wrapper 完成 目标 网 页 的 大 规模 数据 抽取 。 抽 取 的 数据 存储 至 实际 抽取 数据 库 中 。 

@ Web 实体 间 联 系 发 现 通过 调用 Web 实体 间 候 选 联系 发 现 与 评价 服务 ， 获 得 高 置信 度 的 候 
选 联系 ; 然后 调用 Web 实体 问 联系 产生 服务 ， 由 业务 专家 完成 联系 的 确认 和 说 明 ; 最 后 将 产生 的 
新 联系 丰富 至 Web 实体 模型 中 。 


7; 小 结 


近年 来 ，Web 数据 集成 研究 已 经 成 为 一 个 很 重要 的 研究 课题 。Web 数据 抽取 是 Web 数据 集成 
中 的 关键 问题 ， 由 于 Web 数据 具有 大 规模 性 、 异 构 性 、 动 态 变化 和 关系 丰富 等 特点 ， 使 得 从 Web 
页 面 中 准确 地 抽取 出 广泛 存在 的 半 结 构 化 数据 成 为 当前 的 热点 研究 问题 之 一 。 可 以 以 Web 数据 集 
成 为 目标 ， 针 对 Web 页 面 中 的 半 结 构 化 数据 抽取 ， 通 过 充分 利用 Web 数据 集成 系统 中 已 存在 的 
数据 ， 有 效 地 解决 了 Web 实体 模式 构建 、Web 数据 准确 抽取 和 语义 理解 ， 以 及 Web 实体 间 联 系 


发 现 问题 。 
Web 数据 抽取 是 一 个 充满 机 遇 与 挑战 的 研究 领域 ,还 有 许多 问题 有 待 于 进一步 的 探索 与 研究 。 
需要 注意 的 工作 如 下 。 


(1) Web 数据 抽取 的 适应 性 问题 
由 于 Web 上 数据 具有 动态 变化 的 特点 ， 网 站 和 Web 页 面 上 的 内 容 经 常 发 生变 化 ， 导 致 已 产 
生 的 抽取 规则 失效 。 如 何 有 效 地 提高 Web 数据 抽取 的 自 适应 能 力 , 使 之 能 够 根据 目标 网 页 发 生 的 
变化 自动 做 出 调整 , 更 新 相应 的 抽取 规则 , 准确 地 完成 抽取 工作 对 于 Web 数据 集成 变 得 至 关 重 要 。 
下 一 步 将 针对 保持 Web 数据 抽取 的 适应 性 问题 ， 提 出 有 效 的 解决 办 法 ， 增 强 Web 数据 抽取 系统 
的 适应 能 力 ， 满 足 Web 数据 集成 的 需要 。 
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(2) Web 数据 抽取 的 通用 性 问题 

目前 ,大 部 分 Web 数据 抽取 方法 是 针对 单一 网 站 构造 相应 的 抽取 系统 ,完成 准确 的 数据 抽取 
工作 。 但 是 ， 由 于 Web 数据 集成 系统 需要 对 互联 网 上 的 众多 网 站 上 的 内 容 进行 集成 ， 因 此 ， 导 致 
构建 Web 数据 抽取 系统 的 代价 也 非常 高 。 如 何 有 效 地 构造 通用 性 比较 强 的 Web 数据 抽取 系统 ， 
使 之 能 够 同时 完成 对 多 个 网 站 的 数据 抽取 工作 ， 可 以 极 大 地 提高 Web 数据 抽取 的 效率 。 下 一 步 ， 
将 针对 提高 Web 数据 抽取 的 通用 性 问题 进行 探讨 。 


(3) Web 页 面 中 的 非 结构 化 数据 抽取 问题 

针对 非 结构 化 文本 的 信息 抽取 技术 ， 是 自然 语言 理解 领域 的 一 个 重要 研究 课题 。 中 文 信息 抽 
取 方 面 的 研究 起 步 较 晚 ， 主 要 的 研究 工作 集中 在 对 中 文 命名 实体 的 识别 方面 ， 在 设计 实现 完整 的 
中 文 信息 抽取 系统 方面 还 在 探索 阶段 。Web 页 面 中 也 存在 着 非 结 构 化 文本 ， 如 何 对 Web 页 面 中 的 
非 结构 化 数据 进行 抽取 ， 并 进行 相应 的 语义 理解 ， 对 于 Web 数据 集成 也 有 着 至 关 重 要 的 意义 。 


3.3.2 ” 非 结 构 化 数据 抽取 


1. 非 结构 化 数据 采集 的 背景 和 意义 

计算 机 应 用 的 不 断 发 展 导致 了 数据 量 的 急剧 增加 , 由 于 数据 结构 化 过 程 受 限于 人 工 处 理 速度 ， 
导致 非 结 构 化 数据 的 增长 速度 远 远大 于 结构 化 数据 。 传 统 上 使 用 文件 目录 树 组 织 管理 大 规模 非 结 
构 化 数据 的 方案 存在 很 大 缺陷 。 文 件 目录 树 不 能 很 好 地 表达 非 结 构 化 数据 自身 以 及 数据 之 间 语 义 
关系 的 多 样 性 , 同时 在 大 规模 数据 集 下 维护 文件 目录 树 的 一 致 性 会 非常 困难 而 且 开销 极 大 。 因 此 ， 
对 海量 非 结构 化 数据 的 组 织 进 行 研究 ， 成 为 如 今 迫在眉睫 的 问题 。 

随 着 计算 机 技术 不 断 深入 到 社会 生活 的 方方面面 ， 数 字 化 信息 以 指数 规模 增加 。 在 如 此 巨 量 
的 数据 面前 ， 人 对 数据 的 处 理 速度 是 非常 慢 的 ， 远 远 落 后 于 计算 机 对 数据 的 处 理 速度 。 但 对 于 数 
据 的 深层 理解 和 应 用 ， 现 有 的 计算 机 系统 却 暂时 无 法 有 效 地 实现 。 因 此 使 用 高 效 的 计算 机 数据 处 
理 手段 加 快 人 类 数据 处 理 和 应 用 成 为 吸 待 解决 的 问题 。 

在 现实 生活 中 , 数据 的 获取 速度 往往 快 于 人 的 处 理 速度 , 因此 这 些 获取 的 数据 必须 进行 存储 ， 
以 待 未 来 使 用 或 者 应 用 ， 而 高 效 的 数据 组 织 方法 能 够 帮助 人 们 在 需要 时 迅速 地 从 后 台大 规模 数据 
中 获取 自己 想 要 的 数据 ; 另 一 个 方面 ， 对 于 数据 的 理解 往往 表现 为 一 个 不 断 深入 的 过 程 ， 在 此 期 
间 必 需 保存 数据 自身 和 对 于 数据 的 不 断 认 知 ,如 何 存储 这 些 新 增 的 数据 成 为 当前 需要 解决 的 问题 。 

现代 计算 机 对 数据 的 管理 通常 以 文件 的 形式 ， 通 过 文件 系统 来 对 数据 进行 组 织 管理 。 传 统 的 
文件 系统 包括 两 个 层次 的 操作 语义 ， 第 一 相对 于 用 户 而 言 ， 以 文件 目录 树 的 形式 提供 文件 (数据 
集 ) 逻辑 组 织 的 方法 ， 目 录 和 文件 结构 包含 一 定 的 逻辑 含义 ， 另 一 个 方面 ， 文 件 系 统 和 存储 设备 
之 间 使 用 块 操作 语义 ， 其 中 最 为 关键 的 结构 实现 文件 的 分 配 信息 表 和 文件 目录 结构 的 存储 表示 方 
法 。 其 中 文件 目录 结构 既 起 到 数据 信息 关联 表示 的 作用 ， 又 起 到 寻 址 作用 (通过 上 级 目录 定位 下 
级 目录 或 者 文件 的 分 配 信息 结构 )。 

传统 的 文件 系统 不 能 够 很 好 地 解决 大 规模 数据 的 组 织 问题 。 主 要 表现 在 以 下 两 个 方面 。 
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从 用 户 的 角度 来 看 ， 文 件 目录 树 不 能 很 好 地 表达 数据 之 间 的 罗 辑 关系 ， 由 于 一 级 目录 和 子 目 
录 、 子 文件 之 间 的 关系 一 般 是 包含 或 值 分 类 关系 ， 当 涉及 文件 的 多 个 属性 时 ， 就 很 难 根据 一 个 属 
性 进行 分 类 。 例 如 文档 有 生成 时 间 、 作 者 等 属性 ， 那 么 是 按照 时 间 建 立 目 录 结 构 ， 还 是 使 用 作者 
进行 分 类 就 不 能 确定 。 因 此 ， 文 件 目录 树 不 能 很 好 地 表示 文件 之 间 的 关系 ;从 存储 过 程 来 看 ， 树 
形 目录 包含 从 根 到 子 树 之 问 的 遍历 关系 ， 当 根 或 者 上 级 目录 失效 时 ， 下 级 文件 或 者 目录 就 是 不 可 
以 访问 的 。 而 且 上 级 目录 也 可 能 成 为 性 能 的 瓶颈 。 在 本 地 系统 中 ， 也 许 不 是 很 大 ， 当 文件 目录 树 
扩展 到 多 个 结 点 的 分 布 式 系统 中 ， 维 护 树 的 一 致 性 就 会 很 困难 ， 而 且 从 根 遍历 也 会 导致 访问 多 个 
结 点 ， 造 成 不 必要 的 开销 。 

从 数据 检索 的 角度 来 看 ， 传 统 的 文件 系统 由 于 记录 信息 的 元 数据 缺少 灵活 性 ， 无 法 充分 体现 
用 户 对 信息 的 理解 ， 而 用 户 对 信息 的 理解 是 用 户 使 用 特性 和 信息 实体 化 分 类 的 综合 体现 。 基 于 人 
类 行为 学 的 理论 ， 通 过 用 户 使 用 特性 可 以 很 好 地 理解 用 户 处 理 信息 的 一 般 性 动作 ， 实 现 信息 实体 
化 分 类 。 因 此 ， 在 海量 非 结构 化 数据 检索 中 由 于 信息 存储 本 身 缺 少 足够 的 表征 用 户 偏好 信息 和 信 
息 实体 化 分 类 标记 的 元 数据 ， 从 而 导致 信息 检索 的 精度 较 低 、 代 价 较 大 。 因 此 ， 寻 找 更 为 合理 有 
效 的 海量 非 结构 化 数据 组 织 和 管理 的 方法 机 制 ， 就 成 了 迫切 的 任务 。 


2. 非 结构 化 数据 和 结构 化 数据 的 比较 


(1) 结构 化 数据 组 织 

数据 库 是 现代 计算 机 信息 系统 和 计算 机 应 用 系统 的 基础 和 核心 技术 ， 同 时 也 是 对 结构 化 数据 
组 织 管理 最 为 适合 的 方式 。 数 据 库 技术 最 初 产生 于 20 世纪 60 年 代 中 期 ， 根 据 数 据 模型 的 发 展 ， 
可 以 划分 为 三 个 阶段 : 第 一 代 是 网 状 和 层次 数据 库 系 统 ， 第 二 代 是 关系 数据 库 系 统 ;， 第 三 代 是 以 
面向 对 象 模型 为 主要 特征 的 数据 库 系统 。 

第 一 代数 据 库 的 代表 是 1969 年 IBM 公司 研制 的 层次 模型 的 数据 库 管 理 系统 IMS 和 20 世纪 
70 年 代 美国 数据 库 系统 语言 协会 CODASYL 下 属 数据 库 任务 组 DBTG 提议 的 网 状 模型 。 层 次 数 
据 库 的 数据 模型 是 有 根 的 定向 有 序 树 ， 网 状 模型 对 应 的 是 有 向 图 。 这 两 种 数据 库 砚 定 了 现代 数据 
库 发 展 的 基础 。 这 两 种 数据 库 具 有 如 下 共同 点 


@ 支持 三 级 模式 ( 外 模式 、 模 式 、 内 模式 ) 。 保 证 数据 库 系 统 具有 与 程序 的 物理 独立 性 和 一 
定 的 逻辑 独立 性 ; 

@ 用 存 取 路 径 来 表示 数据 之 间 的 联系 ; 

@ 有 独立 的 数据 定义 语言 ; 

@ 导航 式 的 数据 操纵 语言 。 





第 二 代数 据 库 的 主要 特征 是 支持 关系 数据 模型 〈 数 据 结构 、 关 系 操作 、 数 据 完整 性 )。 关 系 
模型 具有 以 下 特点 : 

日 关系 模型 的 概念 单一 ， 实 体 和 实体 之 间 的 连接 用 关系 来 表示 ; 

日 以 关系 代数 为 基础 ; 

e 数据 的 物理 存储 和 存 取 路 径 对 用 户 是 透明 的 ; 

e@ 关系 数据 库 语言 是 非 过 程 化 的 。 
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第 三 代数 据 库 产生 于 20 世纪 80 年 代 ， 随 着 科学 技术 的 不 断 进步 ， 各 个 行业 领域 对 数据 库 技 
术 提 出 了 更 多 的 需求 ， 关 系 型 数据 库 己 经 不 能 完全 满足 这 些 需求 ， 于 是 产生 了 第 三 代数 据 库 。 主 
要 有 以 下 特征 : 


e@ 支持 数据 管理 、 对 象 管理 和 知识 管理 ; 

@ 保持 和 继承 了 第 二 代数 据 库 系统 的 技术 ; 

@ 对 其 他 系统 开放 ， 支 持 数据 库 语言 标准 ， 支 持 标准 网 络 协议 ， 有 良好 的 可 移植 性 、 可 连接 

性 、 可 扩展 性 和 互 操作 性 等 。 第 三 代数 据 库 支持 多 种 数据 模型 ( 比如 关系 模型 和 面向 对 象 
的 模型 )， 并 和 诸多 新 技术 相 结 合 ( 比如 分 布 式 处 理 技术 、 并 行 计算 技术 、 人 工 智 能 技术 、 
多 媒体 技术 、 模 糊 技术 ) ， 广 泛 应 用 于 多 个 领域 ( 商业 管理 、GIS、 计 划 统 计 等 ) ， 由 此 
也 衍生 出 多 种 新 的 数据 库 技术 。 

分 布 式 数据 库 允 许 用 户 开 发 的 应 用 程序 把 多 个 物理 分 开 的 、 通 过 网 络 互联 的 数据 库 当 作 一 个 
完整 的 数据 库 看 待 ， 具体 可 以 通过 客户 /服务 器 模型 来 实现 分 布 式 数据 库 。 并 行 数据 库 通 过 cluster 
技术 把 一 个 大 的 事务 分 散 到 cluster 中 的 多 个 节点 去 执行 ， 提 高 了 数据 库 的 吞吐 率 和 容错 性 。 多 媒 
体 数据 库 提 供 了 一 系列 用 来 存储 图 像 、 音 频 和 视频 对 象 类 型 ， 更 好 地 对 多 媒体 数据 进行 存储 、 管 
理 、 查 询 。 模 糊 数据 库 是 存储 、 组 织 、 管 理 和 操纵 模糊 数据 的 数据 库 ， 可 以 用 于 模糊 知识 处 理 。 


(2) 非 结 构 化 数据 组 织 

随 着 科学 技术 的 发 展 ， 网 络 的 普及 ， 数 据 库 的 弊端 便 逐 步 显 示 出 来 ， 最 严重 的 黄 过 于 对 半 结 
构 化 、 非 结构 化 数据 处 理 的 捉襟见肘 上 。 在 对 非 结构 化 的 数据 组 织 管理 上 ， 存 在 文件 目录 树 、 索 
引 及 检索 、 语 义 文件 系统 几 种 方法 。 

G@ 文件 目录 树 

在 计算 机 内 部 , 数据 和 信息 通常 以 文件 的 方式 来 进行 存储 及 组 织 管理 , 对 数据 的 组 织 与 管理 ， 
也 可 以 看 成 为 对 文件 的 组 织 与 管理 。 目 前 ， 目 录 树 是 最 常用 于 文件 管理 的 结构 。 目 录 树 通过 文件 
的 路 径 名 来 对 文件 进行 分 类 管理 ， 其 优势 是 用 户 通 过 其 对 文件 内 容 的 理解 ， 来 建立 路 径 名 ， 将 文 
件 精 确 地 存放 到 某 个 路 径 中 。 文 件 的 路 径 名 包括 了 风 辑 语义 和 物理 地 址 的 作用 ， 即 用 户 通过 文件 
路 径 名 来 进行 逻辑 管理 ， 而 操作 系统 通过 文件 路 径 名 来 对 文件 进行 块 操作 语义 。 随 着 文件 数目 的 
不 断 增长 ， 这 种 管理 方式 就 变 得 低 效 。 

在 使 用 传统 的 文件 目录 树 方式 来 管理 海量 非 结构 化 数据 时 ， 用 户 会 很 容易 就 陷入 两 难 境地 : 
既 想 将 文件 更 加 详细 的 分 类 ， 又 无 法 记 住 标记 文件 详细 分 类 的 绝对 路 径 名 。 因 此 ， 海 量 非 结 构 化 
数据 不 适宜 使 用 传统 的 文件 目录 树 方式 来 管理 和 组 织 数据 。 


@ 索引 及 检索 

索引 最 早出 现在 在 文献 系统 中 ， 从 这 个 意义 上 讲 ， 索 引 是 指 文献 集合 中 包含 的 事项 或 从 文献 
集合 中 引出 的 概念 的 一 种 系统 指南 。 这 些 事项 或 引出 的 概念 是 由 按 已 知 的 或 已 说 明了 的 可 检 顺 序 
排列 的 款 目 表 达 出 来 的 。 由 于 计算 机 的 出 现 ， 索 引 技术 在 现代 得 到 了 迅速 的 发 展 ， 特 别 是 数据 库 
系统 中 的 索引 技术 。“ 索 引 ?在 数据 库 的 术语 中 是 指 根据 某 特定 域 (或 属性 ) 对 数据 库 中 数据 的 一 
种 排序 ， 这 一 特定 域 (或 属性 ) 称 为 关键 域 或 关键 属性 。 对 应 的 索引 服务 就 是 根据 索引 从 数据 中 
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实战 大 数据 


提取 信息 ， 再 对 这 些 信息 进行 有 效 的 组 织 、 分 析 后 ， 提 供给 用 户 。 数 据 库 中 采用 了 类 似 于 看 书 查 
目录 一 样 的 索引 技术 ， 使 得 查询 时 不 必 扫描 整个 数据 库 就 能 迅速 查 到 所 需要 的 内 容 。 

在 现实 情况 下 ， 绝 大 多 数 的 用 户 不 愿意 也 无 法 记 住所 有 数据 信息 的 绝对 路 径 ， 或 者 说 所 有 属 
性 。 但 是 用 户 能 提供 的 是 用 于 描述 所 需要 的 数据 信息 的 某 些 特征 ， 用 户 也 希望 能 够 利用 这 些 少量 
的 特征 信息 , 来 缩小 数据 文件 集 ， 从 而 更 迅速 地 定位 到 自己 需要 的 数据 。 目 前 大 多 数 的 文件 系统 ， 
可 通过 建立 一 些 特定 的 索引 ， 给 用 户 提供 相关 的 检索 工具 。 

当前 的 索引 及 检索 工具 的 好 处 就 是 用 户 仅仅 需要 一 些 简单 的 操作 ， 就 可 以 快速 地 找到 部 分 需 
要 的 数据 。 但 是 其 也 有 很 大 的 缺陷 ， 因 为 提供 的 索引 都 是 预先 定义 或 者 是 对 文件 绝对 路 径 分 析 而 
得 到 的 ， 准 确 性 和 易 用 性 都 无 法 满足 在 海量 非 结构 化 数据 下 的 使 用 。 

@ 语义 文件 系统 

为 了 摆脱 层次 化 文件 目录 树 的 缺陷 , 很 多 机 构 研发 出 了 基于 属性 的 索引 方法 。BeFS 提供 了 另 
外 的 数据 结构 来 通过 属性 来 对 文件 集 进行 索引 ， 通 过 < 关键 词 ， 文 件 > 对 并 且 建 立 对 应 的 索引 ， 用 
户 通过 这 种 索引 结构 ， 提 供 关键 词 来 快速 寻找 相关 的 文件 。 

语义 文件 系统 通常 使 用 < 分 类 , 值 > 来 给 文件 赋予 可 检索 的 映射 , 分 类 也 可 以 称 为 文件 的 属性 ， 
属性 可 以 通过 用 户 输入 或 者 其 他 方法 来 获取 ， 例 如 对 全 文 分 析 、 对 文件 路 径 的 数据 提取 ， 等 等 。 
一 旦 属性 建立 ， 用 户 就 可 以 建立 该 属性 的 虚拟 文件 夹 ， 所 有 包含 该 属性 的 文件 都 可 以 链接 到 这 个 
虚拟 文件 夹 下 ， 如 果 属 性 与 属性 之 间 有 继承 关系 ， 那 么 父 属性 可 以 通过 虚拟 子 文件 夹 的 形式 来 体 
现 。 

海量 数据 的 “海量 ”， 主 要 表现 在 两 个 方面 ， 第 一 是 在 存储 容量 上 ， 所 谓 的 海量 存储 一 般 指 
存储 容量 超过 PB 级 的 大 规模 存储 ， 第 二 就 是 在 数据 结构 上 ， 前 者 的 海量 就 决定 了 数据 源 的 多 样 
化 ， 即 这 些 数 据 会 以 网 页 、 语 音 、 图 片 等 离散 形式 存在 ， 这 些 数据 本 身 是 半 结 构 化 、 无 结构 化 数 
据 。 因 此 ， 海 量 非 结构 化 数据 组 织 方式 就 不 能 简单 地 采取 传统 的 文件 方式 、 数 据 仓库 方式 、 主 题 
树 方式 和 超 媒体 方式 ， 而 对 海量 非 结构 化 数据 的 组 织 ， 也 有 其 特定 的 需求 。 


@ 用 户 参 与 : 由 于 计算 机 对 数据 的 理解 能 力 非常 弱 ， 人 的 理解 能 力 很 强 ， 而 且 海量 非 结 构 化 
数据 的 获取 速度 远 远大 于 对 其 的 处 理 速度 ， 因 此 对 数据 的 理解 是 一 个 渐进 的 过 程 。 只 有 通 
过 人 的 参与 才能 够 更 加 精确 地 抽象 出 数据 的 特征 ， 从 而 用 这 些 特征 来 描述 数据 。 

@ 自动 化 : 由 于 海量 非 结构 化 数据 的 种 类 繁多 、 数 量 庞大 ， 以 手工 方式 进行 处 理 己 不 能 满足 
海量 非 结 构 化 数据 组 织 的 需要 ， 必 需 采 用 自动 化 的 数据 组 织 手段 。 

e 模式 提取 : 数据 之 间 存 在 着 多 维 的 联系 ， 这 些 联系 可 以 作为 数据 的 特征 值 来 表征 处 于 联系 
的 端点 上 的 各 种 数据 。 特别 是 在 海量 非 结 构 化 数据 环境 下 ， 抽 取 这 些 联系 能 够 降低 数据 规 
模 。 这 些 联系 可 以 认为 是 知识 ， 一 种 经 过 验证 、 完 善后 的 形成 的 知识 。 这 就 是 模式 。 半 结 
构 化 或 者 无 结构 化 的 数据 没有 事先 固定 的 模式 ,但 可 以 从 元 数据 中 归纳 出 反映 当前 状态 的 
结构 模式 。 这 个 过 程 就 是 模式 提取 。 

@ 语义 集成 : 海量 非 结 构 化 数据 组 织 中 的 数据 领域 种 类 也 是 很 多 的 ， 针 对 每 个 领域 生成 领域 
内 各 信息 的 语义 网 络 并 建立 有 效 的 集成 框架 。 这 样 可 以 解决 各 个 异 构 信 息 源 之 间 的 语义 不 
一 致 性 ， 以 提供 基于 语义 的 操作 与 服务 。 
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第 3 章 数据 抽取 和 清洗 


上 面 的 需求 决定 了 海量 非 结 构 化 数据 组 织 必须 要 在 文件 系统 、 模 式 识别 、 数 据 挖掘 等 方面 全 
面 考虑 。 


3. 海量 非 结构 化 数据 组 织 设计 


由 于 计算 机 中 的 数据 具有 积累 性 、 沉 演 性 的 特点 ， 人 对 事物 的 认识 是 渐进 性 的 ， 是 一 个 从 简 
单 到 让 富 、 从 具体 到 抽象 的 过 程 ， 结 合 语义 文件 系统 和 索引 机 制 的 特点 ， 对 海量 非 结构 化 数据 的 
组 织 管理 ， 应 该 具有 

。 远 辑 分 类 与 物理 存储 分 离 

。 通过 < 属性 ， 值 > 来 描述 数据 的 特征 ; 

。 对 描述 数据 的 < 属性 ， 值 > 集 不 应 该 有 限制 ， 因 为 人 对 事物 认识 的 渐进 性 ， 随 着 用 户 对 数 

据 信息 认识 的 不 断 加 深 ， 对 数据 信息 的 描述 也 会 不 断 丰富 ; 

。 根据 不 同 的 < 属性 ， 值 >， 重 新 进行 数据 组 织 ， 产 生 新 知识 ; 

。 更 加 高 效 的 索引 及 检索 机 制 ; 

。 根据 用 户 的 行为 习惯 更 方便 高 效 地 将 用 户 所 需要 的 数据 星 现 出 来 。 


海量 非 结构 化 数据 组 织 与 管理 在 设计 过 程 中 ， 都 围绕 着 如 何 更 加 合理 智能 地 产生 < 属性 ， 属 
性 值 > 从 而 体现 出 用 户 对 信息 认识 的 渐进 性 ， 如 何 让 使 用 者 更 加 快速 准确 地 获取 自己 需要 的 数据 
等 而 展开 。 

根据 海量 非 结构 化 数据 组 织 的 需求 ， 功 能 模块 划分 为 5 大 部 分 : 一 为 属性 获取 模块 ， 负 责 < 
属性 ， 属 性 值 > 值 对 的 生成 、 修 改 、 删 除 以 及 一 致 性 的 相关 操作 ; 二 为 属性 组 织 模块 ， 负 责 对 存 
在 系统 中 的 属性 进行 组 织 关联 ， 形 成 属性 关系 网 ， 三 为 THLI 模块 ， 负 责 生 成 索引 以 及 提供 检索 
功能 ， 四 为 罗 辑 视图 模块 ， 负 责 对 结果 数据 集 进行 在 分 类 和 产生 热点 导航 ; 五 为 XML 数据 库 操 
作 ， 负 责 对 XML 数据 库 的 相关 操作 。 

当 数据 以 文件 的 形式 进入 文件 系统 时 ， 可 以 对 文件 进行 属性 处 理 ， 通 过 系统 对 文件 的 属性 以 
及 系统 原 有 的 属性 集 进 行 再 组 织 后 ， 使 用 THLI 机 制 对 属性 进行 索引 ; 用 户 进行 检索 时 ， 输 入 属 
性 和 属性 值 ， 先 通过 THLI 检索 是 否 存在 相关 的 属性 ， 然 后 再 在 返回 的 结果 集 内 检索 符合 属性 值 
的 数据 集 ， 最 终 呈 现 给 用 户 。 数 据 模 型 〈 属 性 ， 属 性 值 ， 关 系 ) 通过 XML、 数据 库 进 行 存储 。 


4. 非 结构 化 数据 的 数据 模型 


(1) 数据 对 象 
数据 对 象 与 文件 系统 的 文件 对 应 ， 数 据 对 象 包 含有 描述 该 数据 的 属性 和 属性 值 ， 通 过 < 属性 ， 
属性 值 > 值 对 来 进行 组 织 。 
(2) 属性 
属性 用 来 描述 文件 的 特征 同时 通过 属性 来 将 文件 进行 分 类 , 属性 包括 系统 属性 和 扩展 属性 。 
e@ 系统 属性 : 大 多 数 文件 系统 提供 了 一 部 分 属性 来 描述 文件 的 信息 ， 例 如 文件 的 创建 时 间 ， 
最 后 修改 时 间 、 文 件 名 、 路 径 、 权 限 等 ， 这 些 属 性 又 被 称 为 元 数据 。 文件 系 统 通过 这 些 元 
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数据 对 文件 进行 组 织 , 用 户 可 以 根据 某 个 或 者 多 个 元 数据 的 信息 来 对 文件 系统 里 的 文件 进 
行 查询 检索 。 

日 扩展 属性 : 用 于 更 详细 描述 文件 特征 的 信息 ， 由 于 系统 提供 的 属性 大 多 是 为 了 方便 操作 系 
统 进行 管理 , 而 且 是 通用 的 , 无 法 详细 描述 各 个 文件 的 特征 信息 , 所 以 考虑 了 属性 的 扩展 ， 
由 于 不 同文 件 之 间 的 差异 性 可 以 很 大 , 随 着 用 户 对 文件 载 有 信息 理解 的 不 断 加 深 , 对 文件 
的 特征 描述 也 会 越 来 越 丰富 ， 因 此 扩展 属性 不 能 像 文件 系统 一 样 ， 把 元 数据 固定 个 数 和 格 
式 ， 存 放 在 底层 的 数据 结构 中 。 


(3) 属性 值 

考虑 到 词汇 意思 的 多 样 性 , 以 及 方便 表示 具有 相似 属性 而 实际 又 存在 着 个 体 差异 的 文件 聚 类 ， 
可 以 增加 属性 值 ， 通 过 < 属性 ， 属 性 值 > 作为 一 个 扩展 属性 元 组 来 描述 文件 。 例 如 ， 一 个 描述 红 绿 
灯 的 文件 可 能 会 有 颜色 的 属性 ， 属 性 值 是 红色 、 黄 色 、 绿 色 的 一 个 属性 值 集合 。 考 虑 加 入 属性 值 ， 
通过 < 属性 ， 属 性 值 > 的 扩展 属性 元 组 来 描述 信息 ， 是 因为 其 比 单单 采用 属性 作为 关键 字 描 述 信息 
更 加 灵活 和 方便 ， 同 时 更 能 清晰 地 反映 出 信息 的 特征 。 

(4) 关系 

属性 与 属性 之 间 通 过 关系 联系 在 一 起 , 引入 关系 后 , 在 实际 意义 上 存在 关系 而 在 语义 上 毫 无 
关联 的 属性 就 可 以 联系 起 来 ， 属 性 与 属性 之 间 的 关系 具有 权 值 ， 通 过 权 值 来 判断 两 个 属性 的 联系 
紧密 度 。 这 样 ， 属 性 、 关 系 构成 了 一 张 带 权 值 的 网 状 图 。 


5. 属性 的 获取 策略 


属性 的 获取 策略 ， 即 通过 某 些 方式 来 生成 用 于 描述 文件 特征 的 属性 。 从 语义 文件 系统 中 可 以 
借鉴 和 采纳 很 多 非常 有 用 的 方法 。 属 性 的 获取 策略 有 两 种 ， 一 种 是 直接 获取 ， 另 外 一 种 是 间接 获 
得 。 直 接 获 取 是 在 文件 生成 或 者 被 用 户 访问 的 时 候 产生 ;而 属性 的 间接 获得 是 通过 系统 对 文件 空 
间 、 时 间 等 关系 或 者 用 户 的 访问 模式 的 分 析 推 断 而 产生 。 

在 文件 生成 或 者 被 访问 时 ， 可 以 通过 几 种 方式 来 生成 描述 该 文件 的 属性 。 


@ 用 户 输入 : 由 于 用 户 对 数据 的 理解 能 力 ， 是 计算 机 无 法 模拟 的 ， 因 此 提供 用 户 直 接 输入 描 
述 数据 的 属性 的 方法 是 必要 的 。 随 着 用 户 对 数据 信息 的 不 断 理解 ， 可 以 通过 这 个 接口 来 丰 
富 描述 信息 ， 即 < 属性 ， 值 >。 用 户 可 以 对 信息 做 出 自己 的 理解 ， 从 而 给 出 信息 的 新 的 自 
定义 属性 和 属性 值 。 

® 上 下 文 分 析 : 上 下 文 是 “存在 或 发 生 的 事物 的 一 些 内 在 关系 ”， 例如， 一 个 文件 的 上 下 文 
包括 与 该 文件 同时 进行 存 取 的 文件 、 当 前 用 户 进行 的 工作 ， 甚 至 用 户 所 在 的 物理 位 置 ， 用 
户 对 该 文件 进行 的 所 有 动作 和 关联 的 数据 都 可 以 看 成 是 该 文件 的 上 下 文 。 大 多 数 用 户 通过 
上 下 文 来 对 文件 进行 组 织 以 及 检索 . 例如 , 用户 可 能 将 当前 特定 任务 的 所 有 相关 文档 归 类 
到 一 个 单独 的 文件 夹 中 ,或 者 通过 回忆 同时 期 访问 过 的 其 他 文件 来 检索 自己 需要 的 文件 。 
这 些 语义 上 的 关系 ,不 可 能 从 文件 本 身 的 内 容 获取 。 通 过 对 文件 的 上 下 文 进行 分 析 ， 也 可 
以 为 文件 赋予 某 些 相关 的 属性 和 属性 值 。 
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(1) 基于 关系 的 策略 


日 空间 关系 : 在 原 有 的 文件 系统 中 ， 用 户 通过 文件 目录 树 的 层次 关系 来 组 织 管理 文件 ， 同 一 
个 文件 目录 下 的 文件 ， 其 在 某 种 分 类 上 是 具有 相同 或 者 相似 的 特征 的 。 而 与 其 父 目 录 下 的 
文件 ， 存 在 的 是 特征 继承 的 关系 。 因 此 ， 通 过 对 空间 关系 的 分 析 ， 在 原 有 的 文件 目录 树 层 
次 模型 的 方式 下 ， 对 同 层 次 的 文件 集 考虑 赋予 相同 的 属性 ， 对 父 目录 的 属性 进行 继承 。 

日 时 间 关系 : 承载 数据 信息 的 文件 ， 其 内 容 并 不 是 一 成 不 变 的 ， 用 户 可 能 在 某 个 时 间 段 对 其 
内 容 进行 修改 ， 从 而 描述 这 个 文件 特征 的 属性 也 不 应 该 一 成 不 变 ， 而 是 应 该 能 够 反映 出 时 
间 关 系 。 在 时 间 轴 上 有 关系 的 一 些 文件 ， 其 特征 也 会 有 一 定 的 关系 。 

日 用 户 的 访问 模式 : 在 用 户 访问 文件 集 时 ， 访 问 的 模式 隐 含 了 被 访问 文件 之 间 的 联系 ， 很 多 
技术 已 经 利用 这 种 方法 来 提高 文件 访问 的 性 能 (例如 文件 的 预 取 、 缓 存 技术 ) 。 


(2) 属性 的 存储 策略 

属性 的 数据 与 传统 的 数据 库 数据 不 同 , 传统 的 数据 库 都 有 一 定 的 数据 模型 , 可 以 根据 模型 来 
具体 描述 特定 的 数据 。 而 属性 的 数据 是 半 结 构 化 的 ， 几 乎 没有 特定 的 模型 描述 ， 每 一 个 文件 由 于 
其 内 容 的 差异 性 , 用 于 描述 其 特征 的 属性 数据 就 不 会 一 致 , 除 系统 属性 是 所 有 文件 都 拥有 的 信息 ， 
有 具 有 一 定 的 结构 性 之 外 ， 其 他 的 扩展 属性 就 体现 了 异 构 性 ， 因 此 属性 的 数据 是 非 完全 结构 化 的 ， 
这 也 被 称 为 半 结 构 化 数据 ， 与 Web 上 的 数据 非常 相似 。 半 结构 化 是 属性 结构 的 最 大 特点 。 

传统 的 关系 数据 库 本 质 上 采用 的 是 一 个 二 维 的 模型 , 通过 一 系列 二 维 关系 的 组 合 来 描述 复杂 实体 对 
象 , 每 个 表 所 代表 的 所 有 实体 在 建 模 设计 时 没有 差异 性 ， 即 使 只 有 一 个 实体 不 拥有 某 种 属性 , 但 为 了 使 
其 结构 化 ， 也 必须 为 其 建立 一 个 字段 。 如 果 这 种 个 体 间 的 差异 性 不 是 仅仅 表现 在 属性 上 ， 而 且 涉 及 结构 
和 关系 ， 则 需要 为 有 差异 的 实体 建立 不 同 的 表 和 对 应 关系 。 处 理 无 结构 化 和 半 结 构 化 的 数据 ， 是 传统 的 
关系 型 数据 库 的 天 生 缺 陷 。 因此 , 传统 的 关系 型 数据 库 不 适合 用 来 表示 属性 , 己 经 对 属性 信息 进行 存储 。 
由 于 XML 在 半 结 构 化 数据 表示 上 的 优势 ， 因 此 也 可 以 用 来 描述 属性 信息 。 

在 原型 系统 中 ， 采 用 了 XML， 来 对 数据 模型 描述 ， 使 用 XML、 数 据 库 及 其 提供 的 API 来 进 
行 XML 文件 的 存储 管理 。 所 有 数据 模型 与 XML 对 应 的 格式 如 下 。 


@ 对 象 : 每 个 对 象 对 应 于 一 个 文件 ， 包 含 系统 属性 和 扩展 属性 。 系统 属性 是 格式 化 数据 ， 每 
个 对 象 都 拥有 相同 的 系统 属性 ， 但 其 属性 值 不 同 。 对 象 的 XML 文件 名 通过 文件 的 绝对 路 
径 去 掉 特 殊 字符 后 取 对 应 的 char 值 表示 。 

@ ”属性 : 每 种 属性 都 有 一 个 对 应 的 XML 文件 ，XML 的 文件 名 为 对 应 的 属性 名 字 。 记 录 了 
该 属性 的 一 些 统计 信息 ， 例 如 引用 次 数 、 被 检索 次 数 ， 记 录 了 该 属性 有 的 属性 值 ， 以 及 引 
用 了 该 属性 的 文件 的 链接 。 在 原型 系统 中 ， 属 性 对 应 的 XML 文件 可 用 于 反 向 索引 ， 通 过 
该 反 向 索引 可 以 快速 定位 到 拥有 该 属性 的 文件 信息 。 

e@ 关系: 每 种 关系 也 会 有 对 应 的 一 个 XML 索引 ， 与 属性 的 索引 一 样 ， 记 录 了 用 户 的 一 些 
行为 特征 ， 包 括 检索 次 数 和 引用 次 数 。 同 时 记录 了 有 该 关系 的 属性 对 ， 这 种 < 属性 ， 属 性 
> 对 是 有 方向 的 ， 而 且 是 带 权 值 的 。 
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3.3.3 ”基于 云 计算 的 海量 数据 分 析 


随 着 信息 技术 的 高 速 发 展 , 如 今 每 18 个 月 产生 的 数据 量 大 约 等 于 过 去 几 千年 产生 的 总 和 , 并 
且 有 不 断 增加 的 趋势 。 如 此 多 的 数据 无 疑 能 为 人 们 带 来 广阔 的 信息 量 ， 但 需要 从 海量 数据 中 发 现 
对 企业 或 个 人 有 用 知识 的 难度 随 之 增加 。 而 云 计 算 平 台 能 够 进行 动态 资源 调度 和 分 配 ， 具 有 高 度 
虚拟 化 和 高 可 用 性 等 特点 ， 正 好 能 满足 高 效 数据 抽取 和 挖掘 的 需求 。 将 云 计算 技术 与 现 有 的 数据 
挖掘 技术 进行 有 效 结合 不 失 为 一 种 可 行 的 途径 。 云 计算 是 一 种 能 够 通过 互联 网 为 用 户 提供 服务 的 
计算 模式 ， 它 提供 的 主要 是 能 够 进行 动态 伸缩 的 虚拟 化 的 资源 ， 用 户 不 需要 了 解 如 何 管理 那些 支 
持 云 计算 的 基础 设施 。 简 单 来 说 ， 云 计算 是 一 种 新 笑 的 商业 模式 ， 它 使 用 大 量 廉价 的 、 相 互 连 接 
在 互联 网 上 的 计算 机 进行 任务 的 处 理 ， 为 各 种 应 用 系统 提供 所 需要 的 存储 资源 、 计 算 资 源 和 其 他 
服务 资源 。 

从 技术 层面 来 说 ， 云 计算 技术 早已 存在 ， 它 是 虚拟 化 技术 的 扩展 、 分 布 式 计算 技术 的 演进 、 
SOA 架构 的 延伸 、 信 息 资源 的 集中 管理 和 智能 调配 机 制 的 体现 。 与 传统 IT 技术 有 所 区 别 的 是 ， 
云 计算 带 来 了 理念 创新 。 从 商业 角度 来 看 ， 云 计算 的 核心 理念 是 以 服务 的 形式 提供 计算 资源 ， 用 
户 在 需要 时 进行 使 用 和 购买 ， 可 以 更 好 地 满足 组 织 业 务 快速 变更 和 创新 升级 的 需求 。 对 于 像 数 据 
挖掘 任务 这 种 大 量 的 数据 密集 型 应 用 ， 往 往 需 要 牵扯 到 近似 求解 、 程 序 迭 代 、 数 据 降 维 等 比较 复 
杂 的 算法 ， 真 正 计 算 起 来 是 非常 困难 的 。 因 此 ， 基 于 云 计 算 的 海量 数据 挖掘 技术 受到 了 学 术 界 和 
工业 界 的 共同 关注 ， 并 且 成 为 现今 热点 技术 中 的 一 员 。 


1. 大 数据 特点 


(1) 大 数据 来 源 及 数量 

提 到 数据 ,相信 IT 从 业 人 员 首 先 想到 的 是 数据 库 、 数 据 仓库 等 技术 ， 毕 竞 这 是 一 种 至 今 仍然 
十 分 流行 且 占 据 主导 地 位 的 技术 。 但 请 记 住 ， 这 些 技术 是 构建 在 关系 型 数据 库 理论 基础 上 的 ， 具 
有 明显 的 结构 化 特征 ， 换 言 之 ， 存 储 在 数据 库 、 数 据 仓库 中 的 数据 是 通过 分 析 、 建 模 之 后 筛选 出 
来 的 自 认 为 有 意义 的 数据 。 而 在 这 个 过 程 中 ， 已 经 据 弃 掉 了 许多 自 认为 无 意义 的 数据 ， 真 的 没有 
意义 吗 ? 答案 当然 是 否定 的 。 但 为 什么 要 据 弃 呢 ? 原因 很 简单 ， 以 前 的 技术 条 件 不 允许 存储 如 此 
庞大 的 数据 量 。 随 着 物 联网 概念 的 提出 、 应 用 和 发 展 ， 每 天 传感器 、 控 制 器 、 智 能 设备 中 都 会 产 
生 海 量 数据 。 据 统计 ， 在 2000 年 ， 全 球 存储 了 800 000 PB 的 数据 ;预计 到 2020 年 ， 这 一 数字 会 
达到 35ZB。 所 以 ， 可 以 得 出 这 样 的 结论 : 大 数据 从 来 就 是 存在 的 ， 只 是 因为 技术 条 件 的 限制 而 
没有 得 到 重视 或 是 故意 规避 而 已 。 

(2) 大 数据 类 型 

以 前 保存 的 数据 类 型 主要 是 结构 化 数据 。 然 而, 并非 所 有 的 数据 都 是 可 以 结构 化 的 ， 据 统计 ， 
可 结构 化 数据 ， 即 可 以 存储 在 数据 库 等 传统 系统 (主要 是 指 关系 型 数据 库 产品 ) 中 的 数据 占 数 据 
总 量 的 20% 左 右 ; 其 他 80% 的 数据 不 能 至 少 是 不 便于 存储 于 传统 的 系统 中 ， 因 为 其 结构 形式 是 非 
结构 化 的 或 者 是 半 结 构 化 的 〈 如 文本 、 传 感 器 数据 、 音 频 、 视 频 、 事 务 及 地 震 模型 类 的 动态 数据 
等 非 关系 型 数据 )。 所 以 ， 从 这 个 角度 来 讲 ， 大 数据 的 类 型 从 结构 类 型 入 手 可 以 分 为 结构 化 、 半 结 
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构 化 、 非 结构 化 数据 3 类 。 


(3) 大 数据 处 理 速度 及 方式 

面 对 如 此 庞大 的 数据 量 以 及 丰富 至 少 不 再 是 单一 的 ) 的 数据 ， 不 难 想像 ， 对 于 这 些 数据 的 
处 理 速度 将 会 成 为 企业 应 用 、 洞 察 关键 事件 的 瓶颈 。 尽 管 目前 还 没有 得 到 具体 的 可 度量 的 值 来 说 
明 这 个 问题 , 但 换个 角度 来 考虑 ,就 日 常 工 作 中 所 使 用 的 存储 器 的 存储 能 力 、CPU 频率 的 变化 及 
不 高 的 工作 效率 ， 就 完全 可 以 说 明 数据 增长 速率 对 数据 处 理 速度 的 影响 。 

建议 换个 角度 来 考虑 这 个 问题 。 随 着 物 联网 时 代 的 到 来 ，RFID、 传 感 器 等 产生 的 信息 流 将 导 
致 产生 大 量 的 传统 系统 无 法 处 理 的 持续 数据 流 。 请 牢记 一 点 ， 现 在 处 理 的 是 PB 级 的 数据 流 ， 而 
非 TB 级 的 ， 将 来 要 处 理 的 是 ZB 级 甚至 有 可 能 更 高 。 所 以 ， 需 要 考虑 针对 数据 产生 、 流 动 的 速 
度 而 进行 的 数据 处 理 方式 的 变革 ， 如 流 数据 处 理 ， 不 再 是 单纯 地 处 理 传统 系统 中 的 批量 数据 。 


(4) 大 数据 处 理 技术 及 策略 

近年 来 ， 关 于 大 数据 处 理 技术 的 探讨 一 直 不 断 ， 这 方面 最 具 代 表 性 的 就 是 Hadoop 框架 ， 其 
本 质 是 一 个 用 于 分 析 大 数据 集 的 机 制 ， 不 一 定位 于 数据 存储 中 ， 可 以 扩展 到 无 数 个 节点 ， 处 理 所 
有 活动 和 相关 数据 存储 的 协调 。Hadoop 方法 建立 功能 到 数据 的 模型 ， 而 非 传统 的 数据 到 功能 的 模 
型 ， 这 样 就 可 以 从 可 扩展 性 和 分 析 的 角度 发 现 曾 经 几乎 不 可 能 的 大 数据 处 理 变 成 可 能 。 由 于 
Hadoop 部 署 的 复杂 性 及 不 稳定 性 ， 使 其 应 用 到 目前 为 止 还 不 是 十 分 广泛 ,但 无 论 如 何 ， 其 为 大 数 
据 处 理 提供 了 一 种 途径 和 方式 。IBM 在 Hadoop 的 基础 上 发 展 了 GPFS (General Parallel File 
System， 通 用 并 行文 件 系 统 ) 无 共享 集群 及 相关 技术 ， 提 升 了 静止 大 数据 处 理 效 率 ， 此 外 ， 还 提 
出 了 SPL (Streams Processing Language， 流 处 理 语言 )， 使 得 对 流 数据 的 处 理 成 为 现实 并 大 大 提升 
了 实际 工作 效率 。 对 于 大 数据 的 处 理 策略 可 作 如 下 理解 : 
按照 类 型 进行 分 类 处 理 ; 
对 分 类 数据 进行 分 类 存储 或 流 处 理 
对 经 流 处 理 的 非 结构 化 存储 部 分 可 转 存 到 传统 存储 系统 ， 也 可 直接 生成 数据 应 用 ; 
对 传统 存储 系统 进行 批量 处 理 生 成 数据 应 用 。 


2. 基于 云 计算 的 海量 数据 抽取 


数据 挖掘 ， 也 称 为 数据 库 中 的 知识 发 现 过程 ， 就 是 从 海量 数据 中 发 现 新 颖 的 、 有 效 的 或 者 可 
能 有 潜在 作用 的 、 最 终 可 被 理解 的 模式 的 过 程 。 对 于 企业 来 说 ， 最 终 的 目的 是 从 海量 数据 中 提取 
出 可 理解 的 知识 ， 并 且 希 望 数据 规模 越 大 越 好 ， 这 样 挖掘 出 的 知识 才 更 加 准确 。 这 么 高 要 求 的 数 
据 挖掘 对 开发 环境 和 应 用 环境 也 有 比较 高 的 要 求 。 在 这 种 情况 下， 基于 云 计算 的 方式 是 比较 适用 
的 。 云 计算 平台 中 数据 中 心 可 以 存储 海量 数据 ， 并 可 以 根据 数据 挖掘 应 用 的 需求 对 资源 进行 动态 
分 配 ， 保 证 数据 挖掘 算法 的 可 扩展 性 ， 并 采用 容错 机 制 来 保证 数据 挖掘 应 用 的 可 靠 性 。 


(1) 云 计算 数据 抽取 优势 


日 基于 云 计 算 的 模式 可 以 进行 分 布 式 并 行 数据 挖掘 ， 实 现 高 效 实时 的 挖 气 。 同 时 可 以 适应 规 
模 不 同 的 组 织 ， 为 中 小 企业 带 来 新 型 低 成 本 计算 环境 大 企业 云 计算 平台 对 菜 些 特定 数据 








101 


的 计算 对 大 型 高 性 能 机 的 依赖 性 会 得 到 减轻 。 

e@ 基于 云 计 算 的 数据 挖 握 开 发 方便 ,底层 被 屏蔽 掉 了 。 对 于 用 户 来 说 无 需 考虑 数据 的 划分 、 
数据 分 配 加 载 到 节点 以 及 计算 任务 调度 等 。 

@ 在 并 行 化 条 件 下 利用 原先 的 设备 ， 可 以 在 很 大 程度 上 提高 大 规模 处 理 数据 能 力 。 在 增加 结 
点 方面 也 比较 自由 和 方便 ， 同 时 容错 性 得 到 了 提高 。 

@ 基于 云 计 算 的 数据 挖 握 保证 了 挖 握 技 术 的 共享 ， 降 低 了 数据 挖 据 应 用 的 门槛 ， 使 海量 数据 
挖 握 需 求 得 到 了 满足 。 


(2) 基于 云 计算 的 海量 数据 抽取 模型 

基于 云 计算 的 海量 数据 抽取 服务 的 主要 目标 是 利用 云 计算 的 并 行 处 理 和 海量 存储 能 力 ， 解 决 
数据 挖掘 面临 的 海量 数据 处 理 问题 。 基 于 云 计算 的 海量 数据 挖掘 模型 大 体 上 可 以 分 为 三 层 。 位 于 
最 底层 的 是 云 计算 服务 层 ， 提 供 分 布 式 并 行 数据 处 理 及 数据 的 海量 存储 。 云 计算 环境 中 对 海量 数 
据 的 存储 既 要 考虑 数据 的 高 可 用 性 ,又 要 保证 其 安全 性 。 云 计算 采用 分 布 式 方式 对 数据 进行 存储 ， 
为 数据 保存 多 份 副本 的 元 余 存储 方式 保证 了 当 数 据 发 生 灾难 时 不 影响 用 户 的 正常 使 用 。 目 前 常见 
的 云 计算 数据 存储 技术 有 非 开源 的 GFS (Google File System) 和 开源 的 HDFS (Hadoop Distributed 
File System)， 其 中 GFS 是 由 Google 开发 的 ，HDFS 是 由 Hadoop 团队 开发 的 。 此 外 ， 云 计算 
使 用 并 行 工作 模式 ， 能 够 在 大 量 用 户 同时 提出 请 求 时 ， 迅 速 给 予 回应 并 提供 服务 。 

位 于 云 计算 服务 层 之 上 的 是 数据 挖掘 处 理 层 ， 这 一 层 又 包括 海量 数据 预 处 理 和 海量 数据 挖掘 
算法 并 行 化 。 海 量 数据 预 处 理 主要 是 对 海量 不 规则 数据 事先 进行 处 理 。 没 有 好 的 数据 就 没有 好 的 
数据 挖掘 结果 。 由 于 云 计 算 环 境 下 的 MapReduce 计算 模型 适用 于 结构 一 致 的 海量 数据 ， 因 此 ， 面 
对 形态 各 异 的 海量 数据 ， 首 先 就 要 对 它们 进行 预 处 理 。 数 据 预 处 理 方法 包括 数据 抽取 、 数 据 转换 、 
数据 清洗 和 集成 、 数 据 规约 、 属 性 概念 分 层 的 自动 生成 等 。 经 过 预 处 理 的 数据 能 提高 数据 挖掘 结 
果 的 质量 ， 使 挖掘 过 程 更 有 效 、 更 容易 。 

海量 数据 挖掘 的 关键 是 数据 挖掘 算法 的 并 行 化 。 由 于 云 计算 采用 的 是 MapReduce 等 新 型 计 
算 模型 ， 需 要 对 现 有 的 数据 挖掘 算法 和 并 行 化 策略 进行 一 定 程度 的 改造 ， 才 有 可 能 直接 应 用 在 云 
计算 平台 上 进行 海量 数据 挖掘 任务 。 因 此 需要 在 数据 挖掘 算法 的 并 行 化 策略 上 进行 更 为 深入 的 研 
究 ， 从 而 使 云 计算 并 行 海量 数据 挖掘 算法 的 高 效 性 得 以 实现 。 并 行 海量 数据 挖掘 算法 包括 并 行 关 
联 规 则 算法 、 并 行 分 类 算法 和 并 行 聚 类 算法 ， 用 于 分 类 或 预测 模型 、 数 据 总 结 、 数 据 聚 类 、 关 联 
规则 、 序 列 模式 、 依 赖 关 系 或 依赖 模型 、 异 常 和 趋势 发 现 等 。 基 于 此 ， 针 对 海量 数据 挖掘 算法 的 
国有 的 特点 对 已 经 存在 的 云 计 算 模型 进行 优化 升级 以 及 适当 扩充 ， 使 其 对 海量 数据 挖掘 的 适用 型 
得 到 最 大 程度 的 提升 。 

最 顶层 是 面向 用 户 的 用 户 层 ， 该 层 主 要 接收 用 户 的 请 求 ， 将 它 传递 给 下 面 两 层 ， 并 将 最 终 的 
数据 挖掘 结果 展示 给 用 户 。 用 户 通过 友好 的 可 视 化 界面 管理 和 监视 任务 的 执行 ， 并 且 可 以 很 方便 
地 查看 任务 执行 结果 。 用 户 的 数据 挖掘 请 求 通过 用 户 输入 模块 传递 到 系统 内 部 ， 系 统 根据 用 户 提 
交 的 一 些 数 据 挖掘 参数 和 基本 数据 ， 在 算法 库 中 选择 合适 的 数据 挖掘 算法 ， 然 后 调用 经 过 预 处 理 
阶段 的 数据 ,分 配 到 MapReduce 平台 上 进行 并 行 数据 挖掘 , 挖掘 出 的 结果 通过 结果 展示 模块 传递 
给 用 户 。 海 量 数据 的 存储 和 并 行 化 处 理 都 依赖 于 云 计算 环 境 。 
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(3) 基于 云 计 算 的 数据 挖掘 模型 的 不 足 及 后 续 工 作 开展 的 方向 
由 于 云 计 算 还 处 于 高 速 发 展 时 期 ， 必 然 会 面临 很 多 挑战 ， 基 于 云 计 算 的 数据 挖掘 中 也 同样 存 
在 着 一 些 问题 。 


。 云 计算 带 来 的 需求 问题 。 基 于 云 计算 的 数据 挖掘 ， 最 终 会 发 展 成 为 一 种 云 服务 模式 ， 必 然 
会 面临 着 多 样 化 和 个 性 化 的 需求 。 

® 海量 数据 的 问题 。 从 数量 上 来 说 ， 可 能 需要 处 理 数 量 级 达到 TB 级 乃至 PB 级 的 数据 ， 男 
外 还 有 高 维 数据 、 各 种 噪声 数据 以 及 动态 数据 等 ， 这 都 为 数据 处 理 带 来 了 极 大 的 困难 。 

日 算法 的 选择 问题 。 选择 合适 的 算法 及 并 行 策略 来 完成 任务 是 最 关键 的 问题 。 另 外 ， 算 法 的 
设计 、 参 数 的 调节 都 会 直接 影响 到 最 终 的 结果 。 

® 不 明确 性 问题 。 数 据 挖 气 过 程 中 可 能 会 存在 许多 不 明确 性 ， 进 行 数据 挖 振 的 目的 就 是 要 将 
这 些 不 明确 性 带 来 的 影响 降 到 最 低 。 这 些 不 明确 性 包括 对 数据 挖 握 任务 描述 的 不 明确 性 、 
进行 数据 采集 和 预 处 理 时 会 出 现 的 不 明确 性 , 数据 挖 握 方 法 选择 和 最 终结 果 的 不 明确 性 以 
及 对 如 何 评价 数据 挖 气 结 果 的 不 明确 性 等 。 


针对 以 上 提出 的 问题 ， 后 续 工 作 可 以 从 以 下 几 个 方面 着 手 


@ 基础 设施 建设 方面 ， 根 据 多 样 化 和 个 性 化 需求 ， 并 综合 考虑 到 各 领域 各 行业 的 特点 ， 构 建 
专属 的 数据 挖 据 云 服务 平台 。 

@ 虚拟 化 技术 为 数据 挖 握 云 服 务 提 供 了 重要 的 技术 支持 后 续 应 加 大 对 虚拟 化 技术 的 研究 开 
发 ， 并 促进 其 成 果 的 广泛 应 用 ， 高 效 地 对 计算 资源 实现 自主 分 配 和 调度 。 

@ 在 云 服务 应 用 产品 的 研发 环节 中 ， 应 多 考虑 社会 实际 需求 ， 并 大 力 引 导 公众 积极 参与 其 
中 ， 这 样 就 可 以 更 好 地 满足 数据 挖 气 个 性 化 、 多 样 化 的 需求 。 

e@ 在 可 信 性 方面 ， 使 用 的 算法 最 好 具有 通用 性 ， 并 且 可 以 随时 进行 检查 、 调 整 以 及 查看 。 

e@ 数据 安全 问题 不 能 像 一 般 的 信息 安全 那样 直接 加 密 ， 应 该 是 由 客户 根据 自己 的 需求 ， 在 自 
己 的 平台 终端 上 自主 通过 适当 加 密 措 施 对 数据 进行 保护 。 


未 来 数据 挖掘 云 服务 将 会 有 很 好 的 势头 ， 更 多 的 专业 人 士 会 成 为 服务 的 供应 商 ， 公 众 和 各 种 
企业 组 织 机 构 会 从 这 项 服务 中 获 益 良 多 ， 数 据 挖掘 研究 受 计算 环境 的 影响 将 降低 ， 其 应 用 范围 也 
将 大 大 拓宽 。 


数据 清洗 技术 的 实现 


3.4.1 数据 清洗 流程 


可 以 将 数据 清洗 的 过 程 分 成 以 下 几 个 阶段 。 数 据 清洗 过 程 主要 包括 数据 预 处 理 ， 确 定 清洗 方 
法 ， 校 验 清洗 方法 ， 执 行 清洗 工具 和 数据 归档 5 个 阶段 。 每 个 阶段 还 可 以 再 细 分 若干 任务 。 这 5 
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个 阶段 可 以 描述 为 : 

e@ 数据 预 处 理 。 在 数据 清洗 的 最 初 阶段 ， 往 往 是 对 数据 进行 预 处 理 ， 以 检查 数据 源 的 记录 是 
否 存在 各 种 问题 ， 并 得 出 有 关 特 征 。 这 个 阶段 包括 数据 元 素 化 (Elementizing ) 、 标 准 化 
(Standarding ) 等 。 

@ 确定 清洗 方法 。 根 据 数据 源 的 特点 ， 确 定 相应 清洗 方法 。 

e@ 校 验 清洗 方法 。 在 正式 执行 清洗 之 前 ， 先 要 验证 所 用 的 方法 是 否 合适 。 往 往 是 从 数据 源 中 
抽取 小 样本 进行 验证 ， 判 断 其 召回 率 和 准确 率 ， 如 果 没有 达到 要 求 ， 还 需要 对 清洗 方法 进 
行 改进 。 

@ ”执行 清洗 工具 或 程序 。 经 过 校 验 的 清洗 方法 ， 其 算法 经 编程 后 ， 得 到 可 执行 的 清洗 程序 然 
后 对 数据 源 执行 清洗 操作 。 

e@ 数据 归档 。 数 据 清洗 的 执行 中 和 执行 后 往往 还 需要 人 工 操作 ， 将 新 旧 数 据 源 分 别 做 归档 处 
理 ， 这 样 可 以 更 好 地 进行 后 续 的 清洗 过 程 。 


数据 清洗 的 原理 ， 就 是 通过 分 析 “ 脏 数据 ”的 产生 原因 和 存在 形式 ， 利 用 现 有 的 技术 手段 和 
方法 去 清洗 “ 脏 数据 ”， 将 “ 脏 数 据 ” 转 化 为 满足 数据 质量 或 应 用 要 求 的 数据 ， 从 而 提高 数据 集 
的 数据 质量 。 数 据 清洗 主要 利用 回溯 的 思想 ， 从 脏 数据 产生 的 源头 上 开始 分 析 数 据 ， 对 数据 集 流 
经 的 每 一 个 过 程 进 行 分 析 ， 从 中 提取 数据 清洗 的 规则 和 策略 。 最 后 在 数据 集 上 应 用 这 些 规则 和 策 
略 发 现 “ 脏 数据 ”和 清洗 “ 脏 数据 ”。 这 些 清洗 规则 和 策略 的 强度 ， 决 定 了 清洗 后 数据 的 质量 。 
- 般 情况 下 ， 数 据 清洗 的 基本 流程 如 下 。 

1. 数据 分 析 

数据 分 析 是 数据 清洗 的 前 提 与 基础 ,通过 详尽 的 数据 分 析 来 检测 数据 中 的 错误 或 不 一 致 情况 ， 
除了 手动 检查 数据 或 者 数据 样本 之 外 ， 还 可 以 使 用 分 析 程 序 来 获得 关于 数据 属性 的 元 数据 ， 从 而 
发 现 数据 集中 存在 的 质量 问题 。 

一 般 情况 下 ， 模 式 中 反映 的 元 数据 对 于 判断 一 个 数据 源 的 数据 质量 是 远 远 不 够 的 。 因 此 分 析 
具体 实例 来 获得 有 关 数 据 属性 和 不 寻常 模式 的 元 数据 就 变 得 很 重要 。 这 些 元 数据 可 以 帮助 发 现 数 
据 质量 问题 ， 也 有 助 于 发 现 属性 间 的 依赖 关系 ， 根 据 这 些 依赖 关系 实现 数据 转换 的 自动 化 。 

数据 分 析 主 要 有 两 种 方法 : 数据 派生 和 数据 挖掘。 数据 派 生 主要 对 单独 的 某 个 属性 进行 实例 分 析 。 
数据 派生 可 以 得 到 关于 属性 的 很 多 信息 ， 比 如 , 数据 类 型 、 长 度 、 取 值 区 间 、 离 散 值 和 它们 的 出 现 频率 、 
不 同 值 的 个 数 ， 出 现 空缺 值 的 次 数 和 典型 的 字符 串 模式 等 。 通 过 对 数据 应 用 领域 的 理解 以 及 应 用 数理 统 
计 技 术 ， 可 以 得 到 属性 值 的 平均 值 、 中 间 值 、 最 大 值 、 最 小 值 和 标准 差 等 统计 值 。 

数据 挖掘 帮助 在 大 型 数据 集中 发 现 特定 的 数据 模式 。 可 以 通过 数据 挖掘 来 发 现 属性 间 的 一 些 
完整 性 约束 ， 如 ， 函 数 依赖 或 者 一 些 特定 应 用 的 商业 规则 等 。 它 们 可 以 用 来 填充 缺失 值 ， 纠 正 不 
正确 的 值 和 确定 多 数据 源 间 的 重复 记录 。 比 如 一 个 有 着 很 高 的 置信 度 的 关联 规则 可 以 暗示 出 凡是 
违背 它 的 数据 都 可 能 含有 某 些 数据 质量 问题 ， 需 要 进一步 的 检查 。 
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2. 定义 清 先 竺 换 规则 与 工作 流 

根据 上 一 步 进行 数据 分 析 得 到 的 结果 来 定义 清洗 转换 规则 与 工作 流 。 根 据 数据 源 的 个 数 ， 数 
据 源 中 不 一 致 数据 和 “ 脏 数据 ”多 少 的 程度 ， 需 要 执行 大 量 的 数据 转换 和 清洗 步骤 。 要 尽 可 能 地 
为 模式 相关 的 数据 清洗 和 转换 指定 一 种 查询 和 匹配 语言 ， 从 而 使 转换 代码 的 自动 生成 变 成 可 能 。 

3. 验证 

定义 的 清洗 转换 规则 和 工作 流 的 正确 性 和 效率 应 该 进行 验证 和 评估 。 可 以 在 数据 源 的 数据 样 
本 上 进行 清洗 验证 ， 当 不 满足 清洗 要 求 时 要 对 清洗 转换 规则 、 工 作 流 或 系统 参数 进行 调整 和 改进 。 
真正 的 数据 清洗 过 程 中 往往 需要 多 次 迭代 地 进行 分 析 、 设 计 和 验证 ， 直 到 获得 满意 的 清洗 转换 规 
则 和 工作 流 。 它 们 的 质量 决定 了 数据 清洗 的 效率 和 质量 。 


4. 清洗 数据 中 存在 的 错误 


在 数据 源 上 执行 预先 定义 好 的 并 且 已 经 得 到 验证 的 清洗 转换 规则 和 工作 流 。 当 直接 在 源 数据 上 进 
行 清洗 时 ， 需 要 备份 源 数 据 ， 以 防 需 要 撤销 上 一 次 或 几 次 的 清洗 操作 。 清 洗 时 根据 脏 数据 存在 形式 的 不 
同 , 执行 一 系列 的 转换 步骤 来 解决 模式 层 和 实例 层 的 数据 质量 问题 。 为 处 理 单数 据 源 问题 并 且 为 其 与 其 
他 数据 源 的 合并 做 好 准备 ， 一 般 在 各 个 数据 源 上 应 该 分 别 进行 几 种 类 型 的 转换 ， 主 要 包括 


(1) 从 自由 格式 的 属性 字段 中 抽取 值 〈 属 性 分 离 )。 自 由 格式 的 属性 一 般 包 含 很 多 信息 ， 而 
这 些 信息 有 时 候 需 要 细 化 成 多 个 属性 ， 从 而 进一步 支持 后 面 重 复 记 录 的 清洗 。 

(2) 确认 和 改正 。 这 一 步骤 处 理 输入 和 拼写 错误 ， 并 尽 可 能 地 使 其 自动 化 。 基 于 字典 查询 的 
拼写 检查 对 于 发 现 拼写 错误 是 很 有 用 的 。 

(3) 标准 化 。 为 了 使 实例 匹配 和 合并 变 得 更 方便 ， 应 该 把 属性 值 转换 成 一 个 一 致 和 统一 的 格式 。 


5. 干净 数据 回流 


当 数据 被 清洗 后 ， 干 净 的 数据 应 该 替换 数据 源 中 原来 的 “ 脏 数据 ”。 这 样 可 以 提高 原 系统 的 
数据 质量 ， 还 可 避免 将 来 再 次 抽取 数据 后 进行 重复 的 清洗 工作 。 





3.4.2 ”数据 清洗 框架 

1. 与 领域 无 关 的 数据 清洗 框架 

元 数据 是 指 “ 关 于 数据 的 数据 ”， 指 在 数据 清洗 过 程 中 所 产生 的 有 关 数 据 源 定义 、 目 标定 义 、 
转换 规则 等 相关 的 关键 数据 。 元 数据 在 数据 清洗 的 过 程 中 包括 以 下 几 个 组 件 。 

(1) 基本 组 件 

该 功能 主要 是 对 元 数据 的 特征 进行 描述 ， 它 包括 : 可 以 提供 元 数据 的 数据 库 名 , 数据 库 编号 ， 
这 些 数 据 库 的 表 及 表 的 编号 ， 表 中 的 属性 及 属性 的 编号 。 
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(2) 清洗 规则 组 件 

数据 质量 规则 定义 了 元 数据 中 的 质量 问题 和 数据 清洗 规则 。 它 包括 错误 数据 表 ， 含 有 错误 类 
型 编号 ， 错 误 表 现形 式 ， 可 能 的 修改 规则 编号 等 。 转 化 公式 表 含 有 数据 格式 之 间 的 转换 公式 。 同 
时 ， 这 个 组 件 还 包括 一 张 数据 清洗 规则 表 ， 含 有 可 能 清洗 规则 的 定义 等 。 


(3) 数据 加 载 组 件 

数据 加 载 组 件 是 用 于 确定 异 构 的 元 数据 什么 时 候 将 什么 数据 加 载 到 目的 数据 库 中 。 它 包括 输 
出 模型 表 ， 反 映 了 清洗 后 的 数据 到 目的 数据 库 之 间 的 映射 等 。 

与 领域 无 关 的 数据 清洗 框架 由 3 个 工作 流 构成 。 具 体 清洗 过 程 说 明 如 下 : 


(1) 数据 分 析 工 作 流 
分 析 所 要 清洗 的 数据 源 ， 定 义 出 数据 清洗 的 规则 ， 并 选择 合适 的 清洗 算法 ， 使 其 能 更 好 地 适 
应 所 要 清洗 的 数据 源 。 


(2) 数据 清洗 工作 流 

把 数据 源 中 需要 清洗 的 数据 通过 接口 调 入 到 中 间 数 据 库 中 来 。 调 用 算法 库 中 的 相应 算法 对 数 
据 源 进行 预 处 理 ， 如 数据 标准 化 ， 并 根据 预定 义 的 规则 ， 把 数据 记录 中 的 相应 字段 转化 成 同一 格 
式 。 然 后 ， 分 步 执行 数据 清洗 ， 其 清洗 过 程 一 般 为 : 首先 清洗 错误 数据 、 然 后 清洗 不 完整 数据 ， 
最 后 相似 重复 记录 。 

(3) 清理 结果 检验 工作 流 

数据 清洗 运行 结束 后 ， 在 系统 窗口 中 显示 出 数据 清洗 结果 ， 根 据 清洗 结果 和 和 警告 信息 ， 手 工 
清洗 不 符合 系统 预定 义 规则 的 数据 、 处 理 未 清洗 的 数据 ， 从 而 完成 系统 的 数据 清洗 。 此 外 ， 通 过 
查看 数据 清洗 日 志 ， 可 以 检验 数据 清洗 的 正确 性 ， 对 清洗 错误 进行 修正 。 


2. 基于 领域 和 i 只 的 数据 清洗 框架 


与 领域 知识 相关 的 数据 清洗 一 定 要 结合 应 用 领域 的 知识 。 例如: 在 数据 清洗 中 利用 何 种 形式 来 表示 
领域 知识 ， 怎 样 抽 取 、 验 证 、 优 化 知识 ， 什 么 类 型 的 知识 适合 于 数据 清洗 ， 如 何 管理 知识 ， 等 等 。 

基于 知识 的 数据 清洗 框架 ， 在 领域 知识 的 指导 下 从 样本 数据 中 抽取 、 验 证 知识 ， 然 后 通过 专 
家 系统 引擎 对 整体 数据 进行 清洗 ， 对 于 系统 不 能 处 理 的 数据 ， 通 过 用 户 参与 进一步 处 理 。 同 时 ， 
系统 可 以 通过 机 器 学 习 的 方法 不 断 修改 和 优化 规则 库 ， 以 后 碰 到 类 似 情况 时 ， 它 就 知道 怎样 做 出 
相应 的 处 理 了 。 这 个 框架 包含 4 个 阶段 。 


(1) 规则 生成 阶段 

在 这 个 阶段 ， 首 先 要 生成 一 个 样本 数据 集 ， 样 本 数据 集 是 从 整个 数据 库 中 抽取 出 的 一 小 部 分 
样本 数据 ， 在 此 基础 上 通过 专家 的 参与 产生 规则 库 。 在 得 到 初步 的 规则 之 后 ， 把 它们 应 用 到 样本 
数据 集 上 ， 通 过 观察 中 间 结 果 ， 可 以 进一步 修改 已 有 规则 ， 或 者 添加 新 的 领域 知识 ， 如 此 反复 ， 
直到 对 所 得 结果 满意 为 止 。 在 这 个 过 程 中 ， 可 以 用 机 器 学 习 或 者 统计 学 技术 来 帮助 建立 规则 ， 降 
低 所 需 的 人 工分 析 工 作 量 。 
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(2) 预 处 理 阶 段 

在 这 一 阶段 ， 根 据 生成 的 预 处 理 规则 纠正 我 们 能 检测 到 的 所 有 异常 。 基 本 的 预 处 理 包含 : 数 
据 类 型 检测 ， 数 据 格式 标准 化 ， 解 决 数据 中 不 一 致 的 缩写 。 

可 以 用 查找 表 完 成 这 样 的 转换 ， 转 换 通常 与 领域 知识 有 很 密切 的 联系 。 这 一 阶段 将 输出 一 个 
满足 一 定 条 件 的 记录 集合 ， 而 它 将 作为 下 一 步 处 理 的 输入 。 这 个 阶段 所 做 的 预 处 理 是 可 扩展 的 ， 
针对 不 同 的 数据 清洗 种 类 会 有 不 同 的 内 容 。 


(3) 处 理 阶段 
满足 一 定 条 件 的 预 处 理 后 的 数据 接着 流入 带 有 一 个 规则 库 的 专家 系统 引擎 ， 典 型 的 规则 包括 : 


@ 脏 数据 检测 规则 : 这 些 规则 指 确认 脏 数 据 的 条 件 。 

日 重复 数据 检测 /合并 规则 : 这 些 规则 指定 如 何 检测 /合并 重复 数据 ， 一 个 简单 的 合并 规则 是 
在 一 组 重复 的 记录 里 面 ， 保 留 最 近 使 用 记录 而 把 其 余 的 记录 删除 掉 。 

e 错误 数据 更 正规 则 : 这 些 规则 指定 在 特定 的 情况 下 改正 脏 数 据 的 方法 。 当 预 处 理 过 的 数据 
流入 专家 系统 引擎 后 ， 便 激发 这 些 规则 。 规 则 库 是 可 扩展 的 ， 针 对 不 同 的 业务 需求 将 会 包 
含 不 同 的 规则 。 


规则 库 中 含有 系统 日 志 ， 用 来 跟踪 记录 处 理 阶段 所 有 的 操作 及 其 原因 ， 通 过 检查 日 志 进行 一 致 
性 和 准确 性 检查 ,一 旦 发 现 错误 , 还 可 以 撤销 错误 的 数据 清洗 还 可 应 用 它 来 检查 规则 库 的 有 效 性 ， 
如 果 一 个 规则 经 常 错误 地 归 类 重复 记录 ， 或 者 错误 地 修改 值 ， 那 么 就 应 该 删除 或 修改 此 规则 。 


(4) 数据 加 载 阶段 

通过 数据 加 载 规则 ， 把 清洗 后 的 数据 加 载 到 目的 数据 库 中 。 在 整个 数据 清洗 的 体系 框架 中 ， 
无 论 是 元 数据 库 中 定义 的 规则 还 是 规则 库 中 的 规则 ， 规 则 的 定义 与 执行 是 数据 清洗 的 主线 。 在 清 
洗 框架 中 ， 对 于 清洗 规则 的 执行 ， 既 可 采用 批量 执行 ， 也 可 采用 即时 执行 。 批 量 执行 对 整体 来 说 
执行 速度 较 快 ， 但 是 即时 执行 交互 性 更 好 ， 清 洗 质量 一 般 也 较 高 。 这 里 的 数据 清洗 规则 由 用 户 定 
义 ， 一 个 比较 完整 的 规则 用 户 需要 完整 表述 清洗 范围 、 检 查 条 件 和 处 理 方法 。 

相似 重复 记录 可 以 采用 自动 匹配 检测 。 在 程序 自动 匹配 发 现 相似 重复 记录 时 ， 自 动产 生 规 则 ， 
填写 规则 中 的 部 分 项 。 例 如 在 进行 相似 重复 记录 的 合并 时 ， 对 于 可 以 自动 处 理 的 ， 规 则 中 可 以 预 
先 定义 处 理 策略 ， 如 两 条 记录 之 间 没 有 信息 互补 关系 ， 表 示 的 信息 内 容 完全 一 样 ， 这 样 直接 删除 
其 中 一 条 即 可 ， 否 则 ， 应 该 交 由 用 户 手工 处 理 。 


3. 数据 清 先 框架 设计 


为 了 将 数据 清洗 系统 面临 的 复杂 的 多 数据 源 实例 化 问题 转化 为 相对 比较 简单 的 单数 据 源 实例 
化 问题 ， 我 们 在 数据 清洗 之 前 设计 了 数据 预 处 理 部 分 。 在 数据 清洗 的 核心 数据 清洗 引擎 部 分 ， 针 
对 信息 集成 系统 存在 的 数据 质量 的 实际 问题 ， 结 合 数据 清洗 的 基本 原理 和 分 别 设计 了 4 个 模块 : 
数据 选取 模块 、 数 据 标准 化 模块 、 重 复 性 判断 模块 和 映射 模块 。 如 图 3.3 所 示 。 
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图 33 ”数据 清洗 流程 图 


首先 ， 为 了 提高 数据 清洗 的 效率 ， 仅 对 用 户 需要 的 数据 进行 清洗 ， 而 不 是 对 所 有 数据 进行 清 
洗 ， 因 此 ， 需 要 设计 一 个 数据 选取 模块 来 对 用 户 需要 的 数据 进行 提取 ; 由 于 选取 的 数据 格式 及 表 
达 方式 不 同 , 给 判断 其 重复 性 带 来 不 便 , 在 这 里 设计 了 数据 的 标准 化 模块 来 解决 标准 化 规则 问题 ; 
所 有 的 前 期 准备 工作 都 是 为 了 判断 数据 的 重复 性 ， 它 是 数据 清洗 引擎 的 核心 部 分 ， 为 此 设计 了 重 
复 性 判断 模块 ; 对 数据 的 重复 性 进行 判断 后 ,为 了 不 影响 原始 数据 ,将 对 原始 数据 采取 映射 操作 ， 
将 其 组 织 成 新 的 干净 数据 。 

整个 数据 清洗 框架 由 数据 预 处 理 、 数 据 清洗 引擎 、 系 统 维护 及 扩展 接口 三 个 部 分 组 成 。 


(1) 数据 预 处 理 
数据 预 处 理 的 主要 作用 是 将 多 数据 源 提供 的 XML 文档 进行 简单 的 数据 整合 ， 把 数据 质量 问 
题 由 原来 比较 复杂 的 多 数据 源 的 实例 问题 转化 为 单数 据 源 实例 问题 。 


(2) 数据 清洗 引擎 
数据 清洗 引擎 是 数据 清洗 系统 的 核心 部 分 ， 主 要 由 数据 选取 模块 、 标 准 化 模块 、 重 复 性 判断 
模块 和 映射 模块 4 个 部 分 组 成 。 


。 数据 选取 模块 


数据 预 处 理 结束 后 ， 本 系统 面 对 的 问题 将 由 原来 的 多 个 脏 文档 转变 为 一 个 脏 文档 ， 在 本 模块 
中 将 对 预 处 理 部 分 输出 的 脏 文档 数据 进行 选取 ， 获 取 脏 数据 中 用 户 需 要 的 数据 作为 待 清洗 的 数 
据 ， 以 提高 数据 清洗 的 清洗 效率 。 


e 标准 化 模块 


该 模块 负责 将 选取 数据 的 格式 、 表 达 方式 统一 化 ， 系 统 维护 及 扩展 接口 模块 中 的 规则 库 提 供 
了 标准 化 的 规则 。 


日 重复 性 判断 模块 
主要 功能 是 将 标准 化 后 的 数据 进行 笛 卡 尔 积 、 匹 配 和 聚 类 等 操作 以 判断 哪些 元 素 〈 属 性 ) 是 








108 


第 3 章 数据 抽取 和 清洗 


重复 性 元 素 (属性 )。 系 统 维护 及 扩展 接口 模块 中 提供 的 规则 库 和 字典 将 参与 重复 性 判断 过 程 : 重 
复 性 判断 主要 依赖 于 规则 库 提 供 的 相应 判断 规则 ;判断 过 程 中 语义 问题 的 解决 则 主要 依赖 于 对 字 
典 的 查询 。 

e 映射 模块 


为 了 保持 脏 数据 的 原始 性 ， 将 不 对 原始 数据 进行 修改 ， 而 仅 是 运用 重复 性 判断 模块 中 提供 的 
结果 哪些 元 素 或 属性 是 重复 的 ) 以 及 用 户 选取 模块 获得 的 数据 集合 ， 将 数据 集合 中 的 数据 进行 
一 系列 映射 ， 从 而 获得 干净 数据 。 

(3) 系统 维护 及 扩展 接口 

为 了 保证 本 数据 清洗 系统 的 可 维护 性 和 可 扩展 性 ， 提 供 了 系统 维护 及 扩展 接口 部 分 ， 该 部 分 
主要 由 三 个 模块 组 成 。 


e@ 规则 库 





主要 负责 提供 对 数据 标准 化 的 规则 以 及 数据 重复 性 判断 的 相应 规则 ， 用 户 可 以 根据 具体 的 数 
据 清洗 对 该 规则 库 进行 相应 的 添加 、 删 除 和 修改 等 操作 。 

。 字典 

主要 是 针对 在 数据 进行 重复 性 判断 过 程 中 出 现 的 简单 语义 问题 和 原始 数据 的 输入 错误 等 问 
题 ， 提 供 元 素 (属性 ) 重复 性 判断 的 依据 。 

。 函数 库 

将 开发 本 系统 的 函数 统一 放 力 到 该 函数 库 中 ， 以 备 对 本 系统 的 进一步 升级 和 维护 。 


3.4.3 数据 清洗 相关 技术 


1. 不 完整 数据 

在 异 构 数据 集成 过 程 中 ， 由 于 数据 源 模式 的 不 同 以 及 数据 抽取 方式 的 不 同 或 人 为 的 原因 等 ， 
造成 所 得 到 的 数据 通常 并 不 完整 的 。 数 据 不 完整 是 产生 数据 质量 问题 的 一 个 重要 因素 ， 在 这 里 引 
入 一 个 不 完整 数据 的 定义 。 为 了 清理 不 完整 数据 ， 一 般 采 取 两 个 步骤 来 完成 ， 首 先 检 测 不 完整 的 
数据 ， 其 次 对 不 完整 数据 的 处 理 ， 对 不 完整 数据 的 处 理 又 可 分 成 以 下 三 步 。 

(1) 判断 数据 的 可 用 性 

如 果 一 条 记录 中 字段 值 缺失 得 太 多 ， 或 者 是 关键 的 字段 值 缺失 ， 就 没有 必要 去 处 理 该 记录 。 
因此 ， 对 于 检测 出 的 不 完整 数据 ， 要 根据 每 一 条 记录 的 不 完整 程度 以 及 其 他 因素 ， 来 决定 这 些 记 
录 是 保留 还 是 删除 。 判 断 数据 的 可 用 性 就 是 完成 这 一 工作 。 
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(2) 忽略 缺失 字段 的 值 
对 于 不 重要 的 字段 值 缺失 的 方法 ， 一 般 是 采取 删除 属性 或 记录 的 方法 。 


(3) 填充 缺失 字段 的 值 

填充 缺失 字段 的 值 是 指 对 那些 要 保留 的 记录 ， 要 采取 一 定 的 方法 来 处 理 该 记录 中 缺失 的 字段 
值 ， 然 后 删除 不 可 用 的 记录 。 在 多 数 情况 下 ， 数 据 源 之 间 的 字段 值 并 不 是 相互 独立 的 。 所 以 通过 
字段 值 之 间 的 关系 可 以 推断 出 缺失 的 字段 值 ， 然 后 填充 所 缺失 的 字段 值 。 

使 用 忽略 缺失 字段 值 的 清洗 方法 ， 比 较 简单 ， 但 也 有 可 能 将 潜在 的 有 价值 的 信息 一 并 删除 ， 
这 比 含有 不 完整 数据 的 情况 还 要 严重 。 因此 一 般 建议 是 把 那些 不 完整 的 数据 填充 , 而 不 是 删除 掉 。 


代 ， 从 而 提高 可 用 数据 的 质量 。 
对 于 不 完整 数据 ， 一 般 采 取 以 下 几 种 处 理 方法 。 


(1) 常量 值 蔡 代 法 
常量 蔡 代 法 就 是 对 所 有 缺失 的 字段 值 用 同一 个 常量 来 填充 ， 采 用 的 常量 可 以 为 数据 集 的 最 大 
值 或 者 最 小 值 ， 由 于 所 有 的 缺失 值 都 被 当成 同一 个 值 ， 容 易 导 致 错误 的 结果 。 


(2) 采用 统计 的 方法 

这 类 方法 主要 通过 对 数据 的 分 析 ， 得 出 数据 集 的 统计 信息 ， 然 后 利用 这 些 信 息 填 充 缺失 值 。 
其 中 最 简单 也 最 常用 的 方法 是 平均 值 填 充 方法 和 最 大 概率 填充 方法 。 均 值 填充 法 是 最 常用 的 缺失 
值 填充 法 ， 它 把 完整 数据 的 算术 平均 值 作为 缺失 数据 的 值 。 它 根据 的 是 正 态 分 布 的 原理 ,“ 在 正 态 
分 布下 , 样本 均值 是 估算 出 的 最 佳 的 可 能 取 值 。” 应 用 均值 填充 法 将 会 影响 缺失 数据 与 其 他 数据 之 
间 的 相关 性 。 最 大 概率 法 是 选择 数据 集中 出 现 次 数 最 多 的 值 来 填充 缺失 值 。 

(3) 采用 估算 值 的 方法 

估算 值 蔡 代 法 是 比较 复杂 ， 但 也 是 比较 科学 的 一 种 方法 。 采 用 这 种 方法 来 填充 缺失 字段 值 的 
过 程 为 : 首先 采用 相关 算法 ， 如 判定 树 归纳 等 算法 预测 该 字段 缺失 值 的 可 能 值 ， 然 后 用 预测 值 填 
充 缺 失 值 。 

(4) 采用 分 类 的 方法 

分 类 的 概念 是 在 已 有 数据 的 基础 上 构造 出 一 个 分 类 函数 或 模型 ， 即 通常 所 说 的 分 类 器 
(Classifier)。 该 函数 或 模型 能 够 把 数据 库 中 的 数据 记录 映射 到 给 定 类 别 中 的 某 一 个 类 别 。 数 据 分 
类 技术 ， 如 贝 叶 斯 网 络 、 神 经 网 络 、 粗 糙 集 理论 等 也 都 用 来 对 缺失 值 处 理 。 


2. 异常 数据 处 理 


异常 数据 的 产生 可 能 有 多 种 原因 : 数据 源 本 身 难以 得 到 精确 的 数据 ， 收 集 数据 的 设备 可 能 出 
现 故 障 ， 在 数据 和 输入 时 可 能 出 现 错误 ， 数 据 传输 过 程 中 可 能 出 现 错误 ， 存 储 介质 有 可 能 出 现 损坏 
等 。 数 据 错误 是 最 重要 的 数据 质量 问题 。 简 单 地 说 ， 数 据 错误 是 指数 据 源 中 记录 字段 的 值 和 实际 
的 值 不 相符 。 
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在 数据 清洗 中 异常 数据 的 处 理 是 数据 清洗 的 一 个 重要 环节 。 在 对 含有 异常 数据 进行 清洗 的 过 
程 中 ， 现 有 的 方法 通常 是 找到 这 些 含有 异常 数据 的 记录 并 删除 掉 ， 其 缺点 是 事实 上 通常 只 有 一 个 
属性 上 的 数据 需要 删除 或 修正 ， 将 整 条 记录 删除 将 丢失 大 量 有 用 的 、 干 净 的 信息 。 在 异常 数据 的 
数据 清洗 中 ， 许 多 文献 提出 了 噪声 数据 的 概念 ， 下 面 给 一 个 简单 的 定义 : 噪声 数据 是 指 包 含 错误 
的 数据 或 存在 偏离 期 望 的 孤立 点 值 。 

噪声 数据 的 处 理 主要 分 为 3 个 步骤 : 


® 识别 噪声 数据 ， 并 判断 是 否 可 以 判定 引起 噪声 的 属性 。 

e@ 对 于 能 判定 引起 噪声 的 属性 的 记录 ， 用 干净 数据 ( 包括 清洗 过 的 噪声 数据 ) 包含 的 信息 对 
其 进行 矫正 ; 对 于 不 能 判定 引起 噪声 的 属性 记录 , 根据 “噪声 记录 去 除非 噪声 属性 后 的 仍 
然 是 噪声 记录 ”这 个 基本 原则 ， 判 定 其 引起 噪声 的 属性 ， 并 进行 矫正 。 

e@ 在 矫正 过 程 中 生成 噪声 在 属性 上 的 分 布 统计 。 


噪声 数据 处 理 的 方法 有 : 


e 分 箱 (Binning ) : 利用 属性 值 的 相 邻 性 进行 数据 的 平滑 化 。 将 这 组 属性 值 按照 大 小 次 序 
排 成 一 个 线性 队列 ， 再 按照 一 定 的 步 长 将 其 分 成 若干 个 小 组 ， 最 后 就 每 个 小 组 局 部 进行 数 
据 的 平滑 化 。 

@ 聚 类 (Clustering ) : 将 一 组 数据 按照 某 种 相似 性 划分 为 若干 组 ， 如 数据 值 的 大 小 、 数 据 
语义 的 分 类 等 ， 而 那些 遗留 在 分 组 之 外 的 零散 数据 将 被 作为 一 种 噪声 数据 而 别 除 。 

e 人 机 结合 检查 : 可 以 通过 人 工 检查 和 计算 机 结合 的 办 法 来 识别 孤立 点 。 

@ 回归 (Regression ): 定义 一 个 回归 函数 来 平滑 数据 。 线 性 回归 涉及 找 出 适合 两 个 变量 “最 
佳 ”直线 ， 使 得 一 个 变量 能 够 预测 另 一 个 ， 多 线性 回归 是 线性 回归 的 扩展 ， 它 涉及 多 个 变 
量 ， 数 据 要 适合 一 个 多 维 面 。 


3. 重复 记录 处 理 


产生 重复 记录 的 原因 有 很 多 ， 包 括 数据 录入 不 正确 、 数 据 本 身 不 完整 、 数 据 的 演变 、 数 据 缩 
写 及 拼写 错误 等 ， 这 些 因素 使 得 数据 源 中 存在 大 量 不 一 致 的 、 重 复 的 数据 。 因 此 ， 准 确 高 效 地 识 
别 数据 源 中 的 重复 数据 ， 消 除 矛 盾 的 数据 ， 被 认为 是 数据 清洗 最 主要 问题 之 一 。 

在 数据 集成 过 程 中 ， 由 于 不 同 数据 库 之 间 对 数据 表示 的 差异 或 者 因为 人 为 的 差异 导致 集成 后 
的 数据 库 中 同一 实体 对 应 多 条 记录 ， 这 些 重 复 的 记录 可 能 导致 建立 错误 的 数据 挖掘 模型 ， 给 后 期 
数据 的 决策 分 析 产 生 很 大 的 影响 。 因 此 ， 判 断 两 条 记录 是 否 相似 重复 在 数据 集成 、 数 据 挖掘 中 万 
为 重要 。 

所 谓 相似 重复 记录 是 指 客观 上 表示 现实 世界 中 的 同一 实体 ， 但 由 于 表述 方式 不 同 或 因 其 他 原 
因而 使 数据 库 不 能 识别 其 为 重复 的 记录 。 在 关系 数据 库 中 ， 如 果 两 条 记录 在 所 有 的 属性 上 的 值 都 
完全 相同 ， 就 可 认为 是 重复 的 。 

相似 重复 记录 判断 是 一 个 复杂 的 问题 。 在 关系 数据 库 中 判断 两 条 记录 是 否 重复 ， 这 需要 通过 
记录 的 比较 决定 记录 间 的 相似 程度 ， 即 通过 记录 各 字段 值 语法 上 的 比较 结果 ， 决 定 两 条 记录 语义 
上 的 等 价 性 ， 这 也 称 为 记录 的 匹配 问题 。 现 实 中 的 数据 又 是 比较 复杂 的 ， 两 条 记录 是 否 同一 实体 

















于 人 


实战 大 数据 


有 时 还 要 根据 实际 情况 来 判断 。 

要 想 清理 数据 源 中 的 相似 重复 记录 ， 必 须要 先 通过 某 种 方法 检测 出 相似 重复 记录 ， 然 后 采取 
一 定 的 策略 清除 这 些 重复 记录 , 目前 比较 常用 的 重复 记录 清洗 是 先 将 数据 库 中 的 记录 排序 , 然后 ， 
通过 比较 邻近 记录 是 否 匹配 来 检测 相似 重复 记录 。 
重复 记录 清洗 的 基本 过 程 一 般 包括 以 下 几 个 阶段 。 











(1) 记录 排序 


® 预 处 理 : 制定 初步 的 记录 匹配 策略 ， 建 立 算法 库 和 规则 库 。 
® 初步 聚 类 : 主要 是 对 数据 库 中 的 记录 进行 初步 排序 。 


(2) 相似 记录 检测 


e 字段 匹配 。 选择 用 于 记录 匹配 的 属性 , 调用 算法 库 中 字段 匹配 算法 ， 计 算出 字段 的 相似 度 。 

@ 记录 匹配 。 根据 属性 在 决定 两 条 记录 相似 性 中 重要 程度 的 不 同 ， 为 每 个 属性 分 配 不 同 的 权 
重 ， 调 用 算法 库 中 记录 匹配 算法 ， 根 据 上 一 步 中 字段 相似 度 的 结果 计算 出 记录 相似 度 ， 判 
断 是 否 是 相似 重复 记录 。 

@ 重复 记录 检测 。 在 数据 库 应 用 检测 重复 记录 的 算法 对 整个 数据 集中 的 重复 记录 进行 检测 。 
为 了 能 检测 到 更 多 的 重复 记录 ， 一 次 排序 不 够 ， 要 采用 多 轮 排序 ， 多 轮 比 较 ， 每 次 排序 采 
用 不 同 的 键 ， 然 后 把 检测 到 的 所 有 重复 记录 聚 类 到 一 起 ， 从 而 完成 重复 记录 的 检测 。 


(3) 相似 记录 合并 /清除 


根据 已 定义 的 规则 库 中 的 合并 /删除 规则 , 对 同一 重复 记录 聚 类 中 的 重复 记录 进行 合并 或 者 删 
除 ， 只 保留 其 中 正确 的 那 条 记录 。 重 复 记录 清洗 的 完整 性 和 准确 性 是 很 重要 的 。 例 如 在 银行 管理 
系统 中 ， 如 果 没 有 对 相同 客户 记录 进行 匹配 ， 银 行 会 把 一 个 客户 当 作 两 个 甚至 更 多 客户 对 待 ， 客 
户 数 量 就 被 夸大 了 ， 根 据 美国 Meta 集团 的 研究 ， 银 行 客户 资料 约 有 5%~12% 是 重复 的 。 另 一 方 
面 ， 如 果 把 本 不 应 该 合并 的 记录 合并 了 ， 这 时 对 客户 的 看 法 也 是 错误 的 。 这 些 不 完整 、 不 准确 和 
不 可 靠 的 重复 记录 都 会 导致 不 准确 的 分 析 结 果 和 决策 ， 导 致 银行 费用 增加 和 利润 减少 : 如 对 客户 
信用 等 级 有 着 错误 的 认识 ， 就 可 能 导致 投资 风险 ， 对 某 个 客户 价值 没有 充分 认识 ， 就 可 能 导致 失 
去 顾客 ， 错 误 记录 可 能 导致 营销 资源 的 浪费 。 


4. 异常 记录 检测 的 常用 算法 
数据 清洗 的 一 个 关键 技术 是 异常 记录 检测 ， 下 面 主要 阐述 一 些 常用 的 异常 记录 检测 算法 。 


(1) 统计 学 算法 

统计 学 算法 是 基于 模型 的 算法 ， 即 为 数据 创建 一 个 模型 ， 并 且 根据 对 象 拟 合 模型 的 情况 来 评 
估 它 们 。 其 中 回归 分 析 是 应 用 极其 广泛 的 数据 分 析 方 法 之 一 ， 它 提供 了 一 套 描述 和 分 析 变 量 间 相 
关 关 系 ， 揭 示 变量 间 的 内 在 规律 ， 并 用 于 预测 、 控 制 等 问题 的 行 之 有 效 的 方法 。 在 现实 世界 中 ， 
许多 变量 (或 通过 适当 变换 的 变量 ) 之 间 都 有 或 近似 具有 线性 相关 关系 ， 又 因为 线性 回归 分 析 方 
法 简单 、 理 论 完整 ， 因 此 线性 回归 模型 常常 作为 数据 分 析 的 首选 模型 。 线 性 回归 模型 可 由 如 下 公 
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式 描述 : 一般 说 来 , 同一 问题 所 涉及 的 众多 变量 之 间 会 存在 一 定 的 相关 性 , 这 种 相关 性 会 使 各 变 
量 的 信息 有 所 “重合 ”， 于 是 人 们 希望 对 这 些 彼此 相关 的 变量 加 以 “改造 ”用 为 数 较 少 的 、 信 息 
互 不 重 营 的 新 变量 来 反映 原 变量 提供 的 大 部 分 信息 ， 从 而 通过 对 为 数 较 少 的 新 变量 的 分 析 达 到 解 
决 的 目的 。 主 成 分 分 析 和 典型 相关 分 析 便 是 在 这 种 降 维 的 思想 下 产生 的 处 理 高 维 数据 的 统计 方法 。 


(2) 聚 类 算法 

聚 类 分 析 是 依据 样本 间 度 量 标准 将 其 自动 分 成 几 个 组 群 ， 且 使 同一 群 组 内 的 样本 相似 ， 而 属 
于 不 同 群 组 的 样本 相 异 的 一 组 方法 。 一 个 聚 类 分 析 系 统 的 输入 是 一 组 样本 和 一 个 度量 样本 间 相 似 
度 (或 相 异 度 ) 的 标准 。 聚 类 分 析 的 输出 是 数据 集 的 几 个 组 ， 这 些 组 构成 一 个 分 区 或 一 个 分 区 结 
构 。 聚 类 的 样本 是 用 度量 指标 的 一 个 向 量 表示 ， 即 用 多 维 空间 的 一 个 点 来 表示 。 下 面 介 绍 几 个 比 
较 经 典 的 聚 类 算法 。 


@ 层次 聚 类 。 大 多 数 层 次 聚 类 过 程 不 是 基于 最 优 的 思想 ， 而 是 通过 反复 的 分 区 直至 收 公 ， 找 
出 一 些 接近 最 优 标准 的 解决 方案 。 层 次 聚 类 算法 分 两 类 : 分 裂 算 法 和 凝聚 算法 。 分 裂 算法 
从 整个 样本 集 X 开始 ， 把 它 分 成 几 个 子 集 ， 然 后 把 每 个 子 集 分 成 更 小 的 集合 ， 依 次 下 去 。 
最 终 ， 分 裂 算 法 生成 一 个 由 粗略 到 精细 的 分 区 序列 。 凝 聚 算法 首先 把 每 一 个 对 象 当 作 一 个 
初始 类 ， 然 后 把 这 些 类 合并 成 一 个 更 粗略 的 分 区 ， 反 复合 并 ， 最 后 所 有 的 对 象 都 在 一 个 大 
类 内 。 一 般 来 讲 ， 凝 聚 算 法 更 有 实际 应 用 价值 。 

e@ 分 区 聚 类 。 分 区 方法 通常 利用 一 个 局 部 定义 (在 样本 子 集 上 定义 ) 或 全 局 定义 (在 整个 样 
本 集 上 定义 ) 的 准则 函数 进行 优化 来 生成 类 。 一 个 全 局 准则 ， 如 欧 氏 平方 误差 度量 标准 ， 
再 用 一 个 原型 或 重心 表示 每 个 类 ， 然 后 依据 最 相似 的 原理 将 样本 分 配给 各 个 类 。 一 个 局 部 
的 标准 ， 如 互 邻近 距离 (Mutual Neighbor Distance，MND ) 利用 数据 的 局 部 结构 或 环境 生 
成 类 。 识 别 数据 空间 的 高 密度 区 域 是 生成 类 的 一 个 最 基本 准则 ， 最 常用 的 分 区 聚 类 方法 是 
基于 方差 标准 的 方法 。 

5. 重复 记录 检测 的 常用 算法 

数据 清洗 的 另 一 个 关键 技术 是 重复 记录 检测 ， 最 可 靠 的 重复 记录 检测 方法 是 比较 数据 仓库 中 
每 对 记录 ， 但 该 算法 时 间 复 杂 度 太 大 ， 需 要 NGN-1)/2 次 比较 ， 

其 中 N 是 数据 仓库 中 记录 的 总 数 。 排 序 合并 算法 是 检测 数据 库 中 重复 记录 的 标准 算法 ， 它 的 
基本 思想 是 ， 先 对 数据 集 进行 排序 ， 然 后 比较 相 邻 记 录 是 否 相 似 ， 这 一 算法 也 为 在 整个 数据 库 级 
上 检测 重复 记录 提供 了 思路 ， 目 前 已 有 的 检测 重复 记录 的 算法 也 大 多 以 此 思想 为 基础 。 在 下 面 的 
部 分 将 给 出 几 种 主要 检测 重复 记录 的 算法 。 


(1) 基本 近邻 排序 算法 SNM 
基本 近邻 排序 算法 的 基本 步骤 如 下 : 


日 创建 排序 关键 字 。 抽 取 记 录 属 性 的 一 个 子 集 序列 或 属性 值 的 子囊 ， 根 据 这些 子 集 序列 或 属 
性 值 的 子囊 ， 计 算数 据 集中 每 一 条 记录 键 值 。 
e 排序 .根据 排序 关键 宇 对 整个 数据 集 进行 排序 ， 尽 量 把 潜在 的 、 可 能 的 重复 记录 调整 到 邻 
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近 的 区 域内 ， 便 于 进行 记录 匹配 。 

@ 合并 。 在 排序 后 的 数据 集 上 滑动 一 个 固定 大 小 的 窗口 ， 窗 口 可 容纳 Ww 条 记录 ， 则 每 条 新 
进入 窗口 的 记录 都 要 与 先前 进入 窗口 的 w-] 条 记录 进行 比较 ， 如 检测 到 重复 记录 ， 则 进行 
合并 ， 否 则 最 先进 入 窗口 内 的 记录 滑 出 窗口 ， 最 后 一 条 记录 的 下 一 条 记录 移入 窗口 ,再 进 
行 下 一 轮 比较 ， 直 到 数据 集 的 最 后 记录 移入 窗口 后 比较 完毕 。 


(2) 多 越 近邻 排序 算法 MPN 
该 算法 的 基本 思想 : 独立 地 执行 多 趟 SNM 算法 ， 每 趟 创建 不 同 的 排序 关键 字 和 使 用 相对 较 
小 的 滑动 窗口 。 然 后 采用 基于 规则 的 知识 库 来 生成 一 个 等 价 原理 ， 作 为 合并 记录 的 判别 标准 ， 将 
每 趟 扫描 识别 出 的 重复 记录 合并 为 一 组 ， 在 合并 时 假定 记录 的 重复 具有 传递 性 ， 即 计算 其 传递 闭 
包 (transitive closure)， 所 谓 传递 闭 包 ， 是 指 若 记 录 R1 与 R2 互 为 重复 记录 ，R2 与 R3 互 为 重复 
记录 , 则 R1 与 R3 互 为 重复 记录 。 通 过 计算 每 趟 扫描 识别 出 的 重复 记录 的 传递 闭 包 ， 可 以 得 到 较 
完全 的 重复 记录 集合 ， 能 部 分 解决 重复 记录 漏 查 问题 。 


(3) 优先 权 队列 算 法 

优先 队列 策略 借用 邻近 排序 算法 的 思想 ， 具 体 策略 ， 先 抽取 一 个 或 多 个 字段 构成 关键 字 ， 根 
据 关键 字 ， 对 数据 集 进行 排序 ， 然 后 在 一 个 长 度 固定 的 子 集 队列 中 检测 匹配 记录 ， 采 用 类 似 LRU 
算法 最近 最 少 使 用 算法 ) 来 控制 队列 的 长 度 。 通 过 匹配 操作 找 出 需要 合并 的 子 集 ， 计 算 其 传递 
闭 包 ， 然 后 合并 它们 ， 最 后 得 到 若干 个 近似 重复 记录 集 。 基 于 这 样 一 个 观察 : 一 个 简单 的 关键 字 
在 排序 后 不 能 完全 将 重复 记录 聚集 在 一 起 ， 因 此 一 趟 优先 队列 算法 可 能 遗漏 一 些 重复 记录 ， 为 避 
免 这 种 情况 ， 提 出 多 趟 优先 队列 算法 ， 每 次 采用 不 同 的 关键 字 进 行 排序 。 

但 是 上 述 算法 存在 以 下 缺陷 : 


@ 对 排序 关键 字 的 依赖 性 太 大 上 述 算法 检测 重复 记录 的 精度 在 很 大 程度 上 依赖 于 所 创建 的 
排序 关键 字 ， 它 直接 影响 着 匹配 的 效率 与 精度 ， 如 果 选 取 关 键 字 不 当 ， 可 能 会 遗漏 很 多 重 
复 记录 ， 比 如 在 排序 后 ， 有 些 重复 记录 的 物理 位 置 相 距 较 远 , 没有 同时 位 于 同一 个 滑动 窗 
口内 ， 因 此 不 能 被 识别 为 重复 记录 。 
@ 滑动 窗口 的 大 小 w 和 队列 长 度 的 选取 很 难 控制 。 它 们 较 大 时 进行 的 比较 次 数 多 ， 而 有 些 
记录 之 间 比 较 是 没有 必要 的 ， 它 们 较 小 时 可 能 会 漏 配 。 
6. 数据 清洗 工具 
从 特定 功能 的 清洗 工具 、ETL 工具 以 及 其 他 工具 3 个 方面 来 对 数据 清洗 工具 进行 介绍 。 
(1) 特定 功能 的 清洗 工具 
特定 的 清洗 工具 主要 处 理 特殊 的 领域 问题 , 基本 上 是 姓名 和 地 址 数据 的 清洗 , 或 者 消除 重复 。 
转换 是 由 预先 定义 的 规则 库 或 者 和 用 户 交互 来 完成 的 。 在 特殊 领域 的 清洗 中 ， 姓 名 和 地 址 在 很 多 
数据 库 中 都 有 记录 而 且 有 很 大 的 基数 。 特 定 的 清洗 工具 提供 抽取 和 转换 姓名 及 地 址 信息 到 标准 元 


素 的 功能 ， 并 基于 清洗 过 的 数据 工具 来 确认 街道 名 称 、 城 市 和 邮政 编码 。 特 殊 领域 的 清洗 工具 有 
IDCENTRIC、PURE INTEGRATE、QUICKADDRESS、REUNION、TRILLIUM 等 。 消 除 重复 的 
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工具 根据 匹配 的 要 求 探 测 和 去 除数 据 集中 相似 重复 记录 。 有 些 工具 还 允许 用 户 指定 匹配 的 规则 。 
目前 已 有 的 用 于 消除 重复 记录 的 清洗 工具 有 DATACLEANSER、MERGE/PURGE LIBRARY、 
MATCH IT、ASTERMERGE 等 。 





(2) ETL 工 具 

现 有 大 量 的 工具 支持 数据 仓库 的 ETL 处 理 , 如 COPYMANAGER、DATASTAGE、EXTRACT、 
WERMART 等 。 它 们 使 用 建立 在 DBMS 上 的 知识 库 以 统一 的 方式 来 管理 所 有 关于 数据 源 、 目 标 
模式 、 映 射 、 教 本 程序 等 的 原 数据 。 模 式 和 数据 通过 本 地 文件 和 DBMS 网 关 、ODBC 等 标准 接 
口 从 操作 型 数据 源 收 取 数 据 。 这 些 工 具 提供 规则 语言 和 预定 义 的 转换 函数 库 来 指定 映射 步骤 。ETL 
工具 很 少 内 置 数据 清洗 的 功能 ， 但 是 允许 用 户 通过 API 指定 清洗 功能 。 通 常 这 些 工 具 没 有 用 数据 
分 析 来 支持 自动 探测 错误 数据 和 数据 不 一 致 。 然 而 ， 用 户 可 以 通过 维护 原 数据 和 运用 集合 函数 
(Sum、Count、Min、Max 等 ) 决定 内 容 的 特征 等 办 法 来 完成 这 些 工 作 。 这 些 工 具 提供 的 转换 工 
具 库 包含 了 许多 数据 转换 和 清洗 所 需 的 函数 ， 例 如 数据 类 转变 、 字 符 串 函数 、 数 学 /科学 和 统计 的 
函数 等 。 规 则 语言 包含 下 then 和 Case 结构 来 处 理 例外 情况 ， 例 如 ， 错 误 拼写 、 缩 写 ， 丢失 或 者 
含糊 的 值 和 超出 范围 的 值 。 而 在 我 国 ， 对 数据 清洗 的 研究 其 少 ,还 没有 一 个 成 型 的 完善 的 ETL 工 
具 应 用 于 数据 仓库 的 系统 中 。 

(3) 其 他 工具 

其 他 与 数据 清洗 相关 的 工具 包括 基于 引擎 的 工具 (COPYMANAGER、DECIS IONBASE、 
POWERMART 、DATASTAGE 、WAREHOUSEADM IN ISTRATOR ) 、 数 据 分 析 工 具 
(MIGRATIONARCHITECT 、WIZRULE 、DATAM ININGSUITE ) 和 业务 流程 再 设计 工具 
(CINTEGRITY) 、 数 据 轮廓 分 析 工 具 (如 MigrationArchitect、Cevoke Software 等 ) 、 数 据 挖 掘 工 
具 (如 WIZRULE 等 ) 。 


3.4.4 基于 Hadoop 的 数据 清洗 方案 


1. 相关 技术 简介 


(1) Hadoop 简介 

Hadoop 是 由 Apache 基金 会 开发 ， 并 由 其 开源 组 织 的 一 个 分 布 式 系统 基础 架构 ， 可 以 在 大 量 
廉价 的 硬件 设备 组 成 的 集群 上 运行 应 用 程序 ， 为 应 用 程序 提供 一 组 稳定 可 靠 的 接口 ， 同 时 用 户 在 
充分 利用 集群 的 威力 高 速 运算 和 存储 来 开发 分 布 式 程序 , 而 不 了 解 分 布 式 底层 细节 。Hadoop 是 一 
个 能 够 对 大 量 数 据 进行 分 布 式 处 理 的 软件 框架 。 其 保证 了 处 理 的 可 靠 性 、 高 效 性 、 可 伸缩 性 。 
Hadoop 是 可 靠 的 ， 因 为 它 假设 计算 元 素 和 存储 会 失败 ， 为 此 它 维护 了 多 个 工作 数据 副本 ， 以 保证 
能 够 针对 失败 的 节点 重新 分 布 处 理 。Hadoop 是 高 效 的 ， 因 为 它 的 工作 运行 方式 是 并 行 的 ， 可 以 通 
过 并 行 处 理 以 加 快 数据 的 处 理 速度 。Hadoop 还 是 可 伸缩 的 ， 对 于 PB 级 数据 也 能 够 进行 处 理 。 除 
此 之 外 ，Hadoop 还 可 以 运行 于 普通 的 PC 机 器 上 ， 对 硬件 要 求 不 高 ， 故 成 本 低 ， 任 何人 都 可 以 使 
用 。Hadoop 的 核心 是 HDFS 分 布 式 文件 系统 、Map/Reduce 分 布 式 并 行 计 算 框架 。 通 过 HDFS 提 
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供 数据 存储 ， 使 用 Map/Reduce 实现 并 行 数据 处 理 。 同 时 ，Hadoop 的 价值 还 体现 在 基于 这 项 技术 
的 组 件 添加 、 交 叉 集成 和 定制 实现 上 。 

Hadoop Distributed File System (HDFS) 被 设计 为 适合 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。 
它 与 现 有 的 分 布 式 文件 系统 有 很 多 共同 点 。 当 然 ， 也 存在 与 其 他 分 布 式 文件 系统 的 明显 区 别 。 
HDFS 是 一 个 高 度 容 错 性 的 系统 ， 只 需要 廉价 的 机 器 就 能 加 以 部 署 。 同 时 ，HDFS 以 其 高 吞吐 量 
的 数据 访问 , 使 得 它 非常 适合 大 规模 数据 集 上 的 应 用 。HDFS 是 Hadoop 平台 的 核心 ,为 分 布 式 计 
算 存储 提供 了 底层 支持 。 


(2) HDFS 目标 及 假设 

@ 节点 失效 

节点 失效 是 正常 的 ， 并 非 突 发 事件 。HDFS 集群 实例 通常 由 许多 服务 器 组 成 ， 其 相应 的 处 理 
数据 也 分 布 在 各 个 机 器 上 。 现 实 应 用 中 的 集群 系统 节点 数据 是 非常 多 的 ， 而 且 某 个 节点 或 某 部 分 
组 件 失效 的 概率 也 非常 大 。 所 以 快速 的 硬件 错误 检测 以 及 及 时 自动 的 回复 是 HDFS 架构 的 重要 参 
考 指标 。 

@ 海量 数据 集 支持 

HDFS 应 用 程序 大 部 分 都 需要 处 理 很 大 的 数据 集 。 在 HDFS 文件 系统 中 ， 一 个 文件 的 大 小 一 般 
都 是 几 GB 甚至 几 TB。HDFS 可 以 用 来 优化 大 文件 存储 并 且 能 提供 集中 式 的 很 高 的 数据 带宽 ， 还 能 
够 使 单个 集群 支持 成 百 上 千 个 节点 。 通 常 在 独立 的 Hadoop 文件 系统 中 能 够 支持 上 千 万 个 文件 。 

e@ 数据 流 式 访问 

在 HDFS 上 的 应 用 程序 需要 对 数据 进行 流 式 访 问 这 些 应 用 程序 与 普通 的 应 用 不 一 样 . HDFS 
的 关键 是 提供 高 数据 吞吐 量 而 非 数据 访问 低 延迟 ， 其 主要 应 用 于 数据 批 处 理 而 非 交互 式 应 用 。 
POSIX 标准 中 的 许多 约束 对 于 运行 在 HDFS 上 的 应 用 程序 来 说 是 不 必要 的 。 可 以 修改 POSIX 的 

- 些 关键 性 语义 以 获得 在 HDFS 文件 系统 上 的 高 数据 吞吐 率 。 

e@ 一致 性 模型 

Hadoop 文件 系统 的 应 用 程序 设计 成 一 次 性 写 随 机 读 的 文件 访问 模型 。 文 件 一 经 创建 、 写 入 、 
关闭 以 后 就 不 会 做 什么 改动 。 这 样 简化 了 数据 一 致 性 问题 并 且 保证 了 数据 访问 的 高 吞吐 量 。 

@ 异 构 软 硬 件 平台 兼容 性 

HDFS 文件 系统 在 设计 的 时 候 就 己 经 考虑 其 跨 平台 性 ， 可 以 简单 的 将 应 用 程序 从 一 个 平台 移 
植 到 另 一 个 平台 ， 使 得 不 同 应 用 平台 的 开发 者 可 以 很 容易 的 开发 出 分 布 式 应 用 程序 。 

(3) HDFS 的 系统 架构 

HDFS 文件 系统 采用 的 是 master/slave 架构 .通常 来 说 , 一 个 HDFS 集群 一 般 由 一 个 Namenode 
和 若干 个 Datanode 组 成 。Namenode 是 中 心服 务 器 ， 主 要 负责 管理 文件 系统 的 namespace 和 客户 
端 对 文件 的 访问 。 而 Datanode 负责 管理 节点 上 附带 的 存储 ,在 集群 中 一 般 是 一 个 节点 一 个 。 在 内 
部 ， 一 个 文件 其 实 分 成 一 个 或 多 个 Block， 并 存储 于 Datanode 集合 中 。Namenode 执行 文件 系统 
的 namespace 操作 ， 比 如 打开 、 关 闭 、 重 命名 文件 和 目录 等 操作 ， 与 此 同时 ，Namenode 节点 也 决 
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定 Block 到 具体 Datanode 节点 的 映射 。Datanode 在 Namenode 的 控制 下 创建 、 删 除 、 复 制 Block。 


(4) HDFS 数据 存储 的 保证 措施 

HDFS 被 设计 运行 在 普通 硬件 上 ， 普 通 硬件 上 发 生 故 障 是 很 正常 的 ， 所 以 错误 检测 并 且 快 速 
自动 恢复 是 HDFS 的 核心 设计 目标 。 为 了 保障 数据 存储 的 进行 ，HDFS 采取 了 以 下 几 个 措施 。 

日 匈 余 备份 和 副本 存放 

文件 存储 时 被 HDFS 分 成 一 组 数据 块 ， 所 有 的 数据 块 都 具有 副本 。Hadoop 在 与 客户 端 相同 
的 节点 上 放置 第 一 个 副本 ， 第 二 个 副本 放置 在 与 第 一 个 不 同 的 随机 选择 的 机 架 上 ， 第 三 个 副本 放 
置 在 与 第 二 个 相同 机 架 上 ， 但 是 放 在 不 同 的 节点 上 。 其 他 副本 则 放置 在 随机 节点 上 ， 并 保证 相同 
机 架 避 免 放置 太 多 副本 。 

日 心跳 检测 机 制 


集群 中 的 Datanode 定期 向 Namenode 传送 数据 报告 以 检测 Datanode 是 否 处 于 正常 工作 状态 ， 
这 些 数 据 报告 被 称 为 心跳 包 和 块 报告 出 现 故障 的 Datanode 不 会 发 送 心跳 包 和 块 报告 。 Namenode 
在 接 到 心跳 包 后 会 进行 标记 ， 没 有 发 送 心跳 包 的 节点 被 标记 为 死机 ，Namenode 不 会 再 向 该 
Datanode 发 送 任何 请 求 指令 。 鼓 掌 节点 会 使 得 副本 数量 降低 ， 检 测 到 一 个 副本 数量 低 于 定 值 时 重 
新 建立 副本 。 

e 数据 完整 性 检测 

HDFS 对 文件 的 数据 完整 性 检测 是 指 在 文件 创建 时 记录 每 个 文件 数据 块 的 校 验 和 ， 客 户 端 读 
取 文 件 时 同样 会 检测 该 文件 数据 块 的 校 验 和 ， 并 将 校 验 和 与 存储 在 命名 空间 的 原始 校 验 进行 对 
比 ， 若 对 比 不 同 ， 则 认为 数据 块 损坏 ， 选 择 其 他 的 副本 进行 读 取 。 

e 空间 回收 策略 

HDFS 把 被 删除 的 文件 放 在 /trash 目录 中 ， 并 设 定 文件 在 该 目录 中 的 存放 时 间 ， 在 未 超过 存 
放 时 间 的 期 限 内 可 以 方便 地 进行 文件 恢复 操作 。 

e 安全 模式 和 快照 

安全 模式 是 指 系 统 启动 时 Namenode 的 一 种 特殊 状态 ， 此 时 不 进行 数据 块 的 复制 。Namenode 
节点 在 确认 数据 库 达到 最 小 副本 数值 或 是 在 允许 的 范围 内 会 自动 退出 安全 模式 状态 。HDFS 还 可 
以 在 数据 损坏 时 利用 快照 功能 回 到 存储 的 某 一 个 正确 的 状态 ， 快 照 是 指 对 某 个 时 间 的 数据 存储 。 


(5) MapReduce 简介 

MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 (大 于 1TB〉 的 并 行 运算 。 概 念 “Map〔 映 
射 )” 和 “Reduce (化 简 )” 及 它们 的 主要 思想 ， 都 是 从 函数 式 编程 语言 里 借 来 的 ， 还 有 从 矢量 编 
程 语言 里 借 来 的 特性 。 它 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 下 ， 将 自己 的 程序 
运行 在 分 布 式 系 统 上 。 当 前 的 软件 实现 是 指定 一 个 Map〈 映 射 ) 函数 ， 用 来 把 一 组 键 值 对 映射 成 
一 组 新 的 键 值 对 ， 指 定 并 发 的 Reduce〈 化 简 ) 函数 ， 用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 
相同 的 键 组 。 

MapReduce 通过 把 对 数据 集 的 大 规模 操作 分 发 给 网 络 上 的 每 个 节点 实现 可 靠 性 ， 每 个 节点 会 
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周期 性 地 把 完成 的 工作 和 状态 的 更 新 报告 回来 .如 果 一 个 节点 保持 沉默 超过 一 个 预 设 的 时 间 间 隔 ， 
主 节 点 记录 这 个 节点 状态 为 死亡 ， 并 把 分 配给 这 个 节点 的 数据 发 到 别 的 节点 。 每 个 操作 使 用 命名 
文件 的 原子 操作 以 确保 不 会 发 生 并 行 线程 间 的 冲突 ， 当 文件 被 改名 的 时 候 ， 系 统 可 能 会 把 它们 复 
制 到 任务 名 以 外 的 另 一 个 名 字 上 去 。 

Hadoop 的 Map/Reduce 集群 主要 由 两 类 服务 器 构成 ， 即 作业 服务 器 及 任务 服务 器 。 其 中 ， 作 
业 服 务 器 ， 也 称 为 Job Tracker， 主 要 负责 管理 运行 在 该 架构 下 的 所 有 作业 ， 也 是 为 各 个 作业 分 配 
任务 的 核心 。 其 与 HDFS 的 Namenode 类 似 ， 也 是 作为 单 点 存在 的 ， 以 简化 负责 的 同步 流程 。 而 
具体 负责 执行 用 户 定义 操作 的 ， 是 任务 服务 器 TaskTracker， 每 个 作业 被 拆 分 为 很 多 任务 ， 包 括 
Map 任务 和 Reduce 任务 等 ， 而 作为 基本 执行 的 基本 单位 一 一 任务 ， 它 们 被 分 配 到 合适 的 任务 服 
务 器 去 执行 ， 任 务 服务 器 一 边 执行 一 边 向 作业 服务 器 汇报 各 个 任务 的 状态 ， 以 此 来 帮助 作业 服务 
器 了 解 作业 执行 的 整体 情况 , 分 配 新 的 任务 等 。 Map/Reduce 的 工作 流程 主要 有 4 个 , 即 提交 作业 、 
作业 初始 化 、 任 务 分配 、 任 务 执行 。 


(6) Hive 简介 

Hive 是 一 个 构建 在 Hadoop 上 的 数据 仓库 框架 ， 是 Facebook 2008 年 8 月 开源 的 一 个 基于 
Hadoop 的 数据 仓库 框架 ， 是 应 Facebook 每 天 产生 的 海量 新 兴 社 会 网 络 数据 进行 管理 和 机 器 学 习 
的 需求 而 产生 和 发 展 的 。 其 设计 目的 是 让 精通 SQL 技能 的 分 析 师 能 够 在 HDFS 的 大 规模 数据 集中 
进行 查询 分 析 ， 作 为 一 个 通用 的 、 可 伸缩 的 数据 处 理 平台 。 

Hive 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 完整 的 SQL 查询 功能 ， 可 以 将 
SQL 语句 转换 为 MapReduce 任务 运行 。 其 优点 是 学 习 成 本 低 ， 可 以 通过 类 SQL 语句 快速 实现 简 
单 的 MapReduce 统计 ， 不 必 开 发 专门 的 MapReduce 应 用 ， 十 分 适合 数据 仓库 的 统计 分 析 。 

通过 Hive， 可 以 方便 地 进行 ETL 的 工作 。Hive 定义 了 一 个 类 似 于 SQL 的 查询 语言 HQL,， 能 
够 将 用 户 编写 的 查询 转换 为 相应 的 Mapreduce 程序 基于 Hadoop 执行 。 其 有 更 丰富 的 类 型 系统 、 
更 类 似 SQL 的 查询 语言 、Table/Partition 元 数据 的 持久 化 等 。 故 Hive 更 适合 于 数据 仓库 的 任务 ， 
Hive 主要 用 于 静态 的 结构 以 及 需要 经 常 分 析 的 工作 。Hive 与 SQL 的 相似 性 促使 其 成 为 Hadoop 
与 其 他 BI 工具 结合 的 理想 交集 。 


(7) Sqoop 简介 

Hadoop 平台 的 最 大 优势 在 于 它 支持 使 用 不 同形 式 的 数据 HDFS 能 够 可 靠 地 存储 日 志和 来 自 
不 同 渠 道 的 其 他 数据 。 但 是 为 了 能 够 和 HDFS 之 外 的 数据 存储 库 进 行 交 互 ，MapReduce 程序 需要 
使 用 外 部 API 来 访问 数据 。 通 常 ， 一 个 组 织 中 有 价值 的 数据 都 存储 在 关系 型 数据 库 系统 中 。 

在 这 种 背景 之 下 ，Sqoop 应 景 而 生 。Sqoop 是 一 个 开源 工具 ， 用 来 将 Hadoop 和 关系 型 数据 库 
中 的 数据 相互 转移 。 它 允许 用 户 将 数据 从 关系 型 数据 库 〈 例 如 : MySQL、Oracle、Postgresql 等 ) 
抽取 到 Hadoop 中 ， 用 于 进一步 处 理 。 抽 取出 的 数据 可 以 被 MapReduce 程序 使 用 ， 也 可 以 被 其 他 
类 似 于 Hive 的 工具 使 用 。 一 旦 形成 分 析 结果 ，Sqoop 便 可 以 将 这 些 结果 重新 导 回 数据 库 ， 供 其 他 
客户 端 使 用 。 
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2. 基于 Hadoop 的 分 布 式 数据 清洗 方案 
当前 ， 数 据 清洗 面临 的 主要 挑战 如 下 。 


@ 随 着 业务 的 增长 ， 企 业 的 用 户 数据 、 日 志 数据 越 来 越 多 ， 数 据 的 错误 率 也 相应 增多 ， 使 得 
展现 正确 数据 的 能 力 远 远 低 于 用 户 的 需求 ， 故 必须 提高 数据 清洗 的 速度 和 效率 。 

日 传统 的 数据 清洗 算法 在 面 对 海 量 数据 时 表现 为 性 能 较 低 、 计 算 能 力 不 如 人 意 ， 在 扩展 性 、 
强壮 性 、 仲 缩 性 等 方面 也 较 差 ， 这 使 得 传统 的 数据 清洗 系统 无 法 扩展 其 自身 的 大 数据 集 清 
洗 能 力 。 

® 对 应 多 种 数据 源 的 多 样 的 数据 格式 ， 在 合并 清洗 的 过 程 中 需要 保证 数据 格式 的 统一 性 ， 从 
而 达到 很 好 的 处 理 能 力 。 


海量 的 数据 处 理 能 力 和 异 构 数据 的 兼容 处 理 能 力 ， 是 基于 Hadoop 分 布 式 数据 清洗 方案 必须 
解决 的 问题 。 利 用 Hadoop 生态 圈 的 相关 技术 及 本 身 核 心 的 集群 特性 、 强 大 的 存储 能 力 及 计算 能 
力 、 灵 活 的 扩展 伸缩 性 ， 可 以 很 好 地 解决 以 上 提出 的 挑战 问题 。 

基本 的 设计 思想 是 : 对 于 海量 数据 清洗 过 程 中 需要 巨大 计算 能 力 的 各 个 模块 的 计算 和 存储 扩 
展 到 Hadoop 集群 的 各 个 节点 ,充分 利用 Hadoop 集群 强大 的 计算 、 存 储 能 力 来 进行 海量 数据 清洗 
工作 ， 提 高 数据 清洗 的 并 行 性 和 准确 性 。 对 此 ， 采 用 分 层 的 设计 思想 ， 在 底层 ， 通 过 Hadoop 作 
为 数据 格式 统一 的 存储 平台 ， 将 各 种 异 构 数据 源 的 数据 统一 到 Hadoop 的 存储 系统 当中 ， 并 用 
Hadoop 来 分 析 处 理 巨 大 的 待 清洗 数据 ， 在 Hadoop 层 之 上 ， 则 为 相应 的 并 行 核心 清洗 模块 ， 包 括 
数据 加 载 模 块 、 分 布 式 孤 立 点 挖掘 模块 、 结 果 分 析 及 存储 模块 ， 透 明 地 调用 Hadoop 底层 的 计算 
和 存储 能 力 。 概 括 来 说 ， 主 要 包括 以 下 两 点 。 


(1) 存储 

在 整个 方案 中 ， 可 以 使 用 HDFS 来 存储 文件 和 原始 数据 。HDFS 高 数据 吞吐 量 、 强 容错 性 等 
特点 ， 都 可 以 为 海量 数据 清洗 提供 效果 保证 。HDFS 提供 了 多 种 访问 接口 ， 可 以 通过 API 和 操作 
命令 简单 地 进行 文件 或 数据 的 查看 。 基 于 HDFS 文件 系统 ， 我 们 可 以 将 海量 的 待 清洗 数据 存 入 ， 
作为 一 个 数据 源 服务 器 ， 将 异 构 数据 源 的 各 种 数据 导入 ， 为 数据 清洗 引擎 提供 数据 输入 及 相应 的 
结果 输出 。 这 里 需要 注意 的 是 ， 面 对 异 构 的 数据 源 ， 其 多 样 的 数据 格式 对 数据 清洗 来 说 ， 是 一 个 
比较 大 的 问题 。 基 于 此 ， 这 里 使 用 Hive 数据 仓库 而 不 是 直接 使 用 HDFS， 来 转 存 异 构 数据 源 的 数 
据 。 对 于 多 种 数据 源 的 数据 ， 比 如 数据 库 ， 可 以 使 用 Sqoop 工具 直接 将 其 需要 清洗 的 数据 导入 
Hive 数据 仓库 ， 不 仅 将 其 存储 为 结构 化 的 数据 文件 ， 同 时 也 将 其 映射 为 一 张 数据 表 ， 提 供 完 整 的 
SQL 查询 功能 ， 通 过 类 SQL 语句 快速 实现 简单 的 数据 预 处 理 任务 。Hive 是 建立 在 HDFS 文件 系 
统 上 的 ， 故 也 继承 了 HDFS 的 各 种 优点 ,数据 处 理 结果 可 以 存 入 Hive 或 HDFS 中 ， 并 通过 Sqoop 
写 回 关系 数据 库 。 

(2) 计算 

对 于 Hadoop 平台 ， 其 另外 一 个 重要 的 部 分 是 MapReduce 运行 机 制 。 使 用 MapReduce， 一 方 
面 将 各 个 模块 的 数据 交互 联系 起 来 ， 另 一 方面 也 可 以 将 各 个 模块 的 计算 任务 发 布 到 Hadoop 集群 
中 的 各 个 计算 节点 。MapReduce 具有 很 好 的 扩展 性 和 伸缩 性 ， 它 屏蔽 了 下 层 的 具体 运行 机 制 ， 直 
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接 抽象 出 相应 的 MapReduce 等 编程 接口 供 快速 实现 各 种 算法 的 并 行 化 。 在 并 行 化 的 过 程 中 , 有 时 
需要 对 多 个 Job 进行 运算 控制 ， 直 接 使 用 前 一 个 Job 的 输出 作为 后 一 个 Job 的 输入 。 对 于 无 法 直 
接 作为 输入 的 Job, 则 将 该 Job 的 输出 按照 指定 格式 定位 到 HDFS 文件 系统 , 等 到 下 一 个 Job 需要 
使 用 时 才 直 接 从 文件 进行 读 取 。 

3. 方案 设计 

如 图 3.4 所 示 ，Hadoop 数据 清洗 主要 分 为 3 个 功能 模块 。 





数 Hadoop 分 布 式 平台 
各 类 数据 库 其 他 信息 库 揪 || 上 二 二 一 
项 | 
处 HDFS MapReduce 
数据 源 理 
数据 分 析 
调用 机 制 
惠 
属性 清洗 动作 As 分 布 式 孤 立 点 挖掘 








清洗 后 的 数据 
3.4 ”Hadoop 数据 清洗 流程 框图 


(1) 多 源 异 构 数据 的 装载 预 处 理 
Hadoop 可 以 从 任意 多 的 数据 源 否 入 任何 类 型 的 数据 , 可 以 是 结构 化 数据 , 也 可 以 是 非 结构 化 
数据 ， 来 自 多 个 数据 源 的 数据 可 以 按 任 何 所 需 的 方式 进行 合并 或 聚合 ， 从 而 实现 任意 一 个 单一 系 
统 均 无 法 处 理 的 综合 数据 清洗 及 其 他 处 理工 作 。 这 里 ， 输 入 文件 来 自 多 个 数据 源 ， 通 过 预 处 理 ， 
将 预 处 理 后 的 结果 放 入 Hadoop 文件 系统 ,使 得 Hadoop 平台 对 应 地 作为 数据 源 服务 器 , 为 下 一 步 
的 数据 清洗 做 准备 。 


(2) Hadoop 分 布 式 计算 
使 用 Hadoop 分 布 式 环境 来 实现 集群 的 存储 及 计算 ， 通 过 HDFS 分 布 式 文件 系统 实现 对 数据 
文件 的 存储 和 管理 ， 通 过 Map/Reduce 运行 机 制 实现 并 行 化 。 这 里 一 方面 实现 对 清洗 数据 的 清洗 ， 
同时 也 负责 中 间 输 出 文件 的 保存 及 管理 ， 另 一 方面 为 下 面 的 数据 清洗 引擎 模块 提供 了 分 布 式 计算 
的 运行 机 制 ， 需 要 在 Hadoop 环境 下 实现 算法 任务 的 并 行 化 处 理 。 


(3) 数据 清洗 引擎 

这 里 是 整个 方案 核心 功能 实现 的 模块 。 其 主要 通过 基于 Hadoop 的 分 布 式 孤 立 点 挖掘 算法 ， 
对 整个 数据 集 进行 清洗 挖掘 ， 找 出 不 合理 的 属性 值 ， 并 执行 相应 的 数据 清洗 动作 ， 最 终 将 清洗 后 
的 数据 通过 接口 或 其 他 方式 和 输出。 这些 处 理 结果 可 以 传递 给 任意 现 有 的 与 Hadoop 无 关 的 企业 系 
统 做 进一步 处 理 。 这 里 ， 主 要 包括 几 个 子 功能 模块 ， 即 数据 加 载 模块 、 分 布 式 孤 立 点 挖掘 算法 模 
块 、 结 果 存 储 模块 。 
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。 数据 加 载 模 央 

由 于 数据 是 根据 属性 进行 清洗 的 。 在 第 一 步 中 ， 我 们 已 经 将 所 有 数据 的 各 种 属性 均 导 入 进 
来 。 这 些 属性 分 析 有 一 些 是 需要 分 步 进行 的 ， 故 这 里 需要 对 数据 进行 再 加 载 工作 ， 将 指定 属性 的 
数据 加 载 到 指定 的 Hadoop 目录 文件 ， 输 入 数据 来 自 于 HDFS 文件 ， 输 出 数据 也 存放 于 HDFS 广 
件 。 

。 分 布 式 孤立 点 挖 折算 法 模块 

由 于 我 们 主要 是 针对 海量 数据 清洗 的 属性 清洗 的 ， 这 里 采用 孤立 点 挖掘 算法 ， 通 过 Hadoop 
分 布 式 环境 ， 找 出 异样 的 属性 值 ， 并 结合 相应 的 清洗 规则 继续 分 析 处 理 。 

。 结果 存储 模块 

这 里 ， 将 处 理 后 的 中 间 数 据 或 最 络 数据 结果 ， 都 通过 该 模块 指定 存放 到 对 应 的 HDFS 文件 系 
统 中 ， 同 时 提供 接口 或 其 他 方式 ， 将 清洗 后 的 数据 用 于 更 高 层 的 数据 处 理 。 

根据 以 上 的 方案 ， 对 应 有 以 下 的 方案 流程 ， 如 图 3.5 所 示 。 
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图 3.5 Hadoop 数据 清洗 流程 图 
分 布 式 数据 清洗 方案 的 流程 图 主要 包括 以 下 步骤 : 


(1) 首先 通过 Sqoop 将 各 种 异 构 数据 源 的 数据 加 载 到 Hadoop 分 布 式 文件 系统 中 。 
(2) 将 HDFS 的 待 清洗 数据 、 参 数 N 和 作为 数据 清洗 引擎 算法 的 输入 。 数 据 清洗 引擎 根 
据 输 入 ， 求 出 本 轮 挖掘 出 的 N 个 孤立 点 。 
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(3) 对 于 挖掘 出 的 N 个 孤立 点 则 为 清洗 的 候选 点 。 我 们 需要 判断 这 些 孤 立 点 是 否 满足 清洗 
规则 。 若 所 有 的 N 个 点 都 满足 清洗 规则 ， 则 将 N 个 数据 点 都 根据 清洗 规则 进行 清洗 , 然后 将 清洗 
后 的 数据 写 回 HDFS， 重 新 将 新 的 HDFS 数据 、N 和 K 作为 新 的 一 轮 数据 清洗 引擎 的 输入 。 

(4) 若 N 个 点 只 有 若干 个 点 满足 清洗 规则 ， 由 于 孤立 点 的 输出 是 根据 距离 优先 原则 ， 孤 立 
性 越 明显 ， 就 排 在 越前 面 。 故 车 只 有 若干 个 点 满足 清洗 规则 ， 则 表示 N 个 点 中 有 个 点 满足 清洗 
规则 , 后 面 的 NTr 个 点 则 已 经 不 满足 清洗 规则 , 此 时 表明 已 经 不 需要 进行 下 一 轮 新 的 数据 清洗 了 ， 
因为 下 一 轮 结果 出 来 后 , 前 面 的 几 个 点 也 是 这 N-r 个 点 。 故 只 需要 简单 地 清洗 r 个 点 , 写 回 HDFS， 
便 可 以 结束 本 次 数据 清洗 方案 的 过 程 。 

(5) 若 N 个 点 中 没有 点 满足 清洗 规则 ， 与 步骤 (4) 一 样 的 分 析 ， 不 需要 进入 新 的 一 轮 迭 代 
数据 清洗 ， 同 时 也 不 需要 进行 数据 清洗 操作 ， 直 接 借 宿 本 次 数据 清洗 方案 的 过 程 。 











ETL 现状 与 发 展 


3.5.1 数据 ETL 简介 


数据 ETL (Data Extraction, Transformation and Loading) 是 用 来 实现 异 构 多 数据 源 的 数据 集成 
的 一 个 工具 ， 它 是 数据 仓库 、 数 据 挖掘 以 及 商业 智能 等 技术 的 基石 。 

ETL 软件 〈 工 具 ) 的 功能 包括 : 

@ 数据 的 抽取 。 从 不 同 的 网 络 、 不 同 的 操作 平台 、 不 同 的 数据 库 及 数据 格式 、 不 同 的 应 用 中 
抽取 数据 ; 

@ 数据 的 转换 。 数 据 转 化 (数据 的 合并 、 江 总、 过 滤 、 转 换 等 ) 、 数 据 的 重新 格式 化 和 计算 、 
关键 数据 的 重新 构建 和 数据 总 结 、 数 据 定位 ; 

® 数据 的 加 载 。 跨 网 络 、 操 作 平 台 ， 将 数据 加 载 到 目标 数据 库 中 。 


数据 ETL 是 构建 数据 仓库 的 第 一 步 ， 难 点 在 于 多 源 数 据 清洗 、 沉 淀 。 对 海量 数据 而 言 ， 人 工 
处 理 不 现实 ， 故 自动 化 数据 清洗 受到 工业 界 的 广泛 关注 。 为 了 保证 数据 质量 ， 需 要 定义 和 判断 错 
误 类 型 ， 查 找 并 标示 错误 实例 ， 修 改 没有 发 现 的 错误 。 由 于 这 些 问 题 比 较 凌 乱 而 显得 难以 采用 通 
用 的 方法 进行 处 理 ， 大 多 数 研究 工作 都 针对 特定 领域 的 数据 集 ， 或 者 是 对 不 同性 质 的 异常 数据 进 
行 通用 处 理 。 

目前 国内 外 关于 数据 清洗 领域 的 研究 非常 活跃 ， 主 要 涉及 以 下 儿 个 方面 : 

e 研究 高 效 的 数据 异常 检测 算法 以 避免 扫描 整个 庞大 的 数据 集 ; 

e 在 自动 化 异常 检测 和 清洗 处 理 中 增加 人 工 判断 处 理 以 提高 处 理 精 度 ; 

® 数据 清洗 时 对 海量 数据 集 进行 并 行 处 理 ; 

日 如 何 消除 合并 后 数据 集中 的 重复 数据 ; 
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日 建立 一 个 通用 的 领域 无 关 的 数据 清洗 框架 ; 
e 研究 模式 集成 问题 。 


已 有 研究 为 数据 ETL 积累 了 丰富 的 脏 数据 处 理 经 验 ， 提 出 了 诸多 数据 清洗 算法 : 脏 数据 预 处 
理 、 排 序 邻居 方法 、 优 先 排队 算法 、 多 次 遍历 数据 清理 方法 、 增 量 数据 清理 、 采 用 领域 知识 进行 
清理 、 采 用 数据 库 管理 系统 的 集成 数据 清理 算法 等 。 这 些 算法 大 多 可 运用 到 数据 ETL 的 数据 清洗 
过 程 中 ， 极 大 地 简化 了 数据 ETL 软件 的 实现 ， 提 升 了 最 终 软件 的 服务 质量 。 

另 一 方面 , 数据 仓库 的 发 展 则 不 断 给 数据 ETL 研究 提供 新 课题 。 过 去 由 于 数据 清洗 与 问题 域 
的 相关 性 很 强 ， 通 用 的 数据 清洗 可 能 受到 很 大 的 限制 ， 因 此 数据 清洗 方面 的 研究 大 都 是 针对 具体 
应 用 、 具体 领域 开展 的 , 数据 清洗 框架 的 通用 性 很 少 有 人 关注 。 然 而 , 数据 仓库 不 断 拓 宽 数据 ETL 
应 用 领域 ， 通 用 的 清理 方案 必 将 受到 越 来 越 多 的 重视 。 在 将 多 源 数据 导入 数据 仓库 的 过 程 中 ， 数 
据 ETL 需要 处 理 的 是 海量 数据 集 ， 因 此 ， 增 量 式 的 数据 抽取 ， 清 洗 时 增 量 式 的 数据 异常 检测 、 数 
据 转换 算法 是 必需 的 ， 而 且 对 于 算法 的 效率 提出 了 愈 来 愈 高 的 要 求 。 

将 数据 从 各 种 业务 处 理 系统 导入 数据 仓库 是 一 个 复杂 的 系统 工程 ,数据 ETL 在 此 面临 两 个 主 
要 的 挑战 ， 其 一 为 异 构 数据 源 的 集成 问题 ， 其 二 为 脏 数据 的 检测 与 解决 。 虽 然 数据 ETL 作为 数据 
仓库 的 预 处 理 部 分 已 经 进入 实用 阶段 ， 但 这 两 个 问题 至 今 并 没有 得 到 很 好 的 解决 ， 成 为 业界 研究 


@ 异 构 数据 源 集成 问题 。 即 数据 集成 ， 主 要 处 理 多 数据 源 的 异 构 问 题 。 待 集成 数据 源 的 异 构 
性 分 为 4 个 层次 : 系统 、 语 法 、 结 构 和 语义 。 系 统 级 异 构 指 不 同 的 主机 、 操作 系统 和 网 络 ; 
语法 级 异 构 是 指数 据 类 型 、 格 式 的 差异 结构 级 异 构 是 指数 据 结构 、 接口 和 模式 上 的 不 同 ; 
语义 级 异 构 则 是 指 在 一 定 领域 内 专用 的 词汇 意义 的 共享 和 交流 。 

@ 脏 数据 的 检测 与 解决 。 即 “数据 清洗 ”， 用 来 有 效 地 清除 脏 数据 、 保 证 数据 质量 。 对 于 创 
建 数据 仓库 及 其 后 续 工作 ， 如 数据 挖 气 等 ， 需 要 保证 数据 的 正确 性 、 一 致 性 、 完 整 性 和 可 
靠 性 (Reliability ) ， 而 目前 的 现存 管理 系统 中 的 数据 存在 很 多 问题 ， 容 易 造成 脏 数据 ， 
其 原因 有 : 小 用 缩写 词 、 惯 用 语 、 数 据 输 入 错误 、 数 据 中 的 内 诸 控制 信息 、 重 复 记 录 、 委 
失 值 、 拼 写 变 化 、 不 同 的 计量 单位 和 过 时 的 编码 等 。 


事实 上 ， 数 据 ETL 需要 解决 的 这 两 个 问题 并 不 存在 十 分 清晰 的 划分 边界 ， 一 般 认 为 “数据 集 
成 ”是 “目的 ” 而 “数据 清洗 ” 则 是 实现 集成 的 主要 手段 ， 它 们 往往 交织 在 一 起 ， 相 互 渗透 。 





通 





这 








3.5.2 ”基于 MapReduce 的 ETL 框架 


最 近 几 年 ， 在 处 理 TB 和 PB 级 数据 方面 ，MapReduce 已 经 成 为 使 用 最 为 广泛 的 并 行 编 程 模 
型 之 一 ， 本 章 设计 的 ETL 框架 便 是 基于 MapReduce 编程 模型 的 。 要 在 MapReduce 模型 下 实现 数 
据 的 ETL 过 程 ， 需 要 对 MapReduce 的 运行 机 制 、 连 接 算法 和 性 能 优化 等 诸多 方面 进行 研究 。 目 
前 ， 国 内 外 MapReduce 相关 的 研究 成 果 主 要 有 以 下 几 方面 。 
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(1) 性 能 优化 方面 
2010 年 ，Shivnath Babu 研究 了 MapReduce 的 参数 自动 优化 技术 ， 该 自动 化 技术 不 仅 提高 了 
MapReduce 程序 处 理 大 数据 集 的 性 能 , 而 且 提高 了 缺乏 MapReduce 程序 优化 技巧 的 用 户 的 生产 效 
率 。2010 年 ，Foto N. Afrati 等 研究 了 在 MapReduce 中 连接 操作 的 优化 技术 ， 提 出 了 链 式 连接 和 星 
型 连接 的 优化 算法 。 与 MapReduce 中 传统 连接 的 实现 方式 相 比 ， 该 算法 在 处 理 大 事实 表 与 小 维 表 
的 连接 操作 时 性 能 尤 佳 。2011 年 ，Avrilia Floratou 把 数据 的 列 存储 方式 引入 到 Hadoop 中 ,并 实现 
了 一 个 新 的 HDFS 数据 块 分 配 策略 以 解决 相关 列 的 定位 问题 。 


(2) 连接 算法 方面 
MapReduce 框架 主要 应 用 于 大 数据 的 分 析 ， 如 日 志 数据 的 处 理 。 处 理 日 志 时 经 常 需 要 对 数据 
进行 过 滤 、 聚 集 等 操作 ， 其 中 经 常 涉及 数据 的 连接 操作 。 但 是 ,在 MapReduce 框架 下 实现 数据 的 
连接 操作 非常 繁杂 。 目前 的 主要 研究 成 果 有 日 志 处 理 的 Join 算法 、Theta-Joins 算法 和 Set-Similarity 
Joins 算法 。 


(3) 编程 模型 改进 方面 

2007 年 ，Hung-chi Yang 等 提出 了 MapReduce-Merge 模型 ， 该 模型 支持 关系 代数 操作 并 实现 
了 多 个 连接 算法 。2010 年 ，Tyson Condie 等 提出 MapReduce Online 模型 ， 该 模型 把 Online 
Aggregations 技术 应 用 于 MapReduc 架构 中 ， 并 以 流水 线 方式 处 理 数据 ， 提 高 了 数据 处 理 的 效率 
和 响应 速度 。 


1. ETL 数据 处 理 流程 


ETL 处 理 流程 主要 包括 数据 抽取 、 数 据 转换 和 数据 加 载 。ETL 首先 从 不 同 的 数据 源 中 抽取 出 
数据 ， 数 据 被 加 载 到 数据 仓库 之 前 ， 要 在 DSA 中 对 数据 进行 转换 和 清洗 。 


(1) 数据 抽取 

数据 抽取 是 指 从 异 构 数据 源 中 获取 符合 要 求 的 数据 的 过 程 。 数 据 抽取 过 程 会 把 源 数 据 中 不 需 
要 的 字段 过 滤 掉 ， 并 对 源 数据 进行 格式 化 和 类 型 转换 。 数 据 抽取 可 以 采用 PULL 和 PUSH 两 种 方 
式 。PUSH 是 指 将 源 数据 按照 双方 定义 的 数据 格式 抽取 出 来 ， 再 通过 FTP 或 其 他 文件 传送 方式 找 
贝 到 ETL 系统 中 。PULL 则 是 ETL 程序 直接 访问 数据 源 ， 获 取 数 据 的 方式 。 在 数据 仓库 创建 过 程 
中 数据 抽取 模式 主要 分 为 全 量 抽取 和 增 量 抽取 两 种 ， 下 面 对 其 分 别 进行 介绍 。 


e 全 量 抽取 
在 这 种 模式 下， 加载 数据 仓库 前 ， 要 将 目标 数据 表 完 全 清空 ， 然 后 抽取 程序 抽取 源 数 据 中 的 
。 增 量 抽取 


增 量 抽取 只 抽取 自 上 次 抽取 以 来 源 数据 中 新 增 或 发 生变 化 的 数据 。 在 ETL 过 程 中 ， 由 于 增 量 
抽取 可 以 有 效 地 降低 后 续 阶段 的 数据 量 ， 因 此 应 用 更 广 。 增 量 抽取 的 关键 是 通过 一 定 的 手段 准确 
而 快速 地 捕获 到 变化 的 数据 ， 同 时 ， 又 不 能 对 现 有 的 业务 系统 造成 太 大 的 压力 。 所 以 ， 与 全 量 抽 


124 


第 3 章 数据 抽取 和 清洗 
取 相 比较 ， 增 量 抽取 方法 更 为 复杂 。 


(2) 数据 转换 

数据 仓库 的 数据 源 形式 多 种 多 样 ， 仅 仅 是 数据 库 系 统 ， 就 可 以 是 Sybase、Informix、Oracle、 
IBM 的 DB2 或 者 是 Microsoft SQL Server 等 数据 库 系统 中 的 一 个 或 几 个 。 在 数据 仓库 中 需要 使 用 
统一 的 格式 存储 数据 ， 所 以 在 创建 数据 仓库 的 过 程 中 ， 需 要 将 来 源 于 不 同 平台 的 数据 进行 转换 。 
数据 转换 可 以 在 ETL 过 程 中 进行 ， 也 可 以 在 数据 抽取 过 程 中 利用 关系 数据 库 的 特性 进行 。 


(3) 数据 加 载 

数据 加 载 是 指 从 源 业务 系统 中 抽取 的 数据 ， 经 过 转换 后 加 载 到 目标 数据 仓库 系统 中 的 过 程 。 
不 同 的 数据 仓库 提供 商 ， 都 会 有 自己 的 数据 加 载 工具 以 及 深入 编程 的 接口 API。 对 于 用 户 而 言 ， 
需要 重点 考察 的 是 数据 加 载 工具 的 加 载 性 能 ， 要 求 数据 加 载 工具 必须 具有 高 效 的 加 载 性 能 。 


2. ETL 框架 的 设计 目标 
基于 MapReduce 的 ETL 框架 设计 目标 如 下 。 


(1) 灵活 性 
随 着 企业 业务 的 不 断 复杂 化 和 数据 量 的 增长 ，ETL 流程 也 越 来 越 复杂 , 使 用 可 视 化 ETL 工具 
中 组 件 拖 搜 的 方式 无 法 灵活 地 设计 ETL 流程 。 手 工 编码 型 的 ETL 工具 具有 高 度 的 灵活 性 ， 本 章 
设计 的 ETL 框架 是 基于 编程 方式 的 ， 用 户 可 以 调用 相应 的 API 或 插入 自己 的 ETL 组 件 对 其 扩展 
来 设计 一 个 复杂 的 ETL 流程 。 


(2) 高 性 能 
ETL 的 性 能 必须 能 够 确保 在 数据 量 非常 大 的 情况 下 依然 能 够 稳定 地 、 快 速 地 进行 数据 的 处 理 ， 
不 会 因数 据 量 大 而 使 ETL 系统 瘫痪 。 在 不 需要 投入 大 量 硬件 成 本 的 前 提 下 ,可 以 通过 以 下 三 点 提 
高 ETL 处 理 的 性 能 :依赖 于 MapReduce 编 程 实现 ETL; 对 维度 数据 处 理 算法 进行 优化 ;优化 Hadoop 
中 数据 块 的 分 配 策略 。 


(3) 易 扩 展 

首先 ， 由 于 各 个 企业 业务 数据 量 的 不 同 ， 所 需要 的 集群 规模 也 各 异 ，ETL 工具 应 该 具有 较 高 
的 伸缩 性 以 满足 不 同 的 需求 。 其 次 ， 越 来 越 多 的 企业 想 实现 自己 的 ETL 系统 ， 所 以 ETL 框架 应 
该 方便 用 户 进行 二 次 开发 ， 降 低 ETL 系统 的 开发 难度 并 减少 ETL 系统 的 开发 周期 。 本 章 基于 
MapReduce 设计 的 ETL 框架 可 运行 在 超过 1000 个 普通 PC 主机 搭建 的 集群 环境 之 上 ， 并 且 ， 每 





高 的 伸缩 性 。 该 ETL 框架 实现 了 通用 的 ETL 功能 ， 基 于 其 编码 实现 ETL 过 程 只 需要 考虑 数据 转 
换 逻 辑 的 具体 实现 ， 而 不 必 关 注 周边 功能 ， 因 此 ， 该 框架 是 易 扩展 的 。 
(4) 易 用 性 
ETL 工具 应 该 方便 没有 分 布 式 编程 经 验 或 者 不 了 解 MapReduce 原理 的 ETL 编程 人 员 使 用 和 
对 其 扩展 。 该 框架 是 基于 MapReduce 设计 的 ， 而 MapReduce 隐藏 了 并 行 计算 、 负 载 均衡 等 细节 ， 
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用 户 无 须 考虑 分 布 式 编程 的 逻辑 设计 与 实现 。ETL 框架 封装 了 维度 数据 ETL 和 事实 数据 ETL 的 
实现 细节 并 对 外 提供 API， 用 户 还 可 以 插入 自己 设计 的 ETL 组 件 ， 用 户 使 用 时 只 需 调用 相关 的 
API 即 可 使 复杂 的 ETL 流程 转换 为 MapReduce 任务 。 


3. ETL 框架 设计 


ETL 框架 是 基于 MapReduce 编程 模型 的 ， 它 主要 由 维度 数据 ETL 模块 、 事 实数 据 ETL 模块 
和 配置 文件 组 成 。 为 了 优化 ETL 程序 处 理 数据 的 性 能 ， 在 该 ETL 框架 中 设计 了 源 数 据 的 切 分 策 
略 。 数 据 切 分 之 后 存储 在 HDFS 的 各 个 DataNode 中 ， 由 mapper 以 一 定 的 数据 格式 对 源 数据 进行 
抽取 。 

配置 文件 是 ETL 流程 的 入 口 ， 并 控制 整个 ETL 的 流程 ， 维 表 和 事实 表 是 在 配置 文件 中 进行 
定义 的 。 在 配置 文件 中 用 户 还 可 以 自 定 义 数据 处 理 所 需 的 转换 函数 和 聚集 函数 ， 如 果 不 需要 这 些 
操作 ， 用 户 可 不 用 配置 reducer， 这 样 数据 就 不 必 划 分 给 reducer， 减 少 了 网 络 开 销 ， 提 高 了 ETL 
处 理 的 性 能 。 

在 该 框架 中 ， 首 先 有 一 个 MapReduce Job 处 理 维度 数据 ， 然 后 另 一 MapReduce Job 处 理事 实 
数据 。 事 实数 据 的 处 理 主要 包括 维度 代理 键 查找 、 度 量 计 算 以 及 装载 事实 数据 到 数据 仓库 中 。 事 
实数 据 处 理 要 在 维度 数据 处 理 之 后 进行 是 因为 处 理事 实数 据 时 需要 从 维度 数据 中 查找 代理 键 。 

在 该 ETL 框架 中 ， 设 计 了 两 种 维度 数据 的 处 理 方式 。 一 种 是 一 个 map/reduce task 处 理 一 个 维 
度 ， 比 如 ， 有 三 个 维度 和 三 个 map/reduce task， 则 每 一 个 map/reduce task 处 理 一 个 维度 的 数据 集 ; 
另 一 种 是 ， 每 个 map/reduce task 处 理 维度 数据 的 一 部 分 。 下 面 基 于 MapReduce 的 ETL 框架 执行 
ETL 过 程 的 算法 : 


日 切 分 源 数据 集 。 
。 读 取 配 置 参数 并 初始 化 。 
e@ 读 取 输 入 数据 交 给 map 函数 处 理 。 
e 处 理 维度 数据 并 装载 到 数据 仓库 。 
e 准备 事实 处 理 。 
e@ 读 取 数 据 并 在 mapper 中 执行 转换 操作 。 
se 加载 事实 数据 到 数据 仓库 。 

ETL 框架 是 由 配置 文件 控制 整个 ETL 的 执行 流程 的 ， 所 有 运行 时 的 参数 都 存储 在 配置 文件 
中 ， 包 括 数据 源 的 定义 、 源 数据 的 切 分 策略 、 维 表 定 义 、 事 实 表 定 义 、 大 维 表 定义 以 及 mapper 
和 reducer 的 个 数 等 。 如 果 知 道 一 个 维度 是 大 维度 ， 那 么 用 户 以 bigdim 的 形式 配置 该 维度 ， 这 样 
ETL 程序 会 选择 对 应 的 处 理 方式 ， 可 达到 更 好 的 性 能 和 负载 均衡 。 如 果 维 度数 据 处 理 不 需要 聚集 
操作 则 可 不 用 配置 reducer， 那 么 ETL 过 程 就 省 略 了 Reduce 阶段 ， 提 高 了 ETL 处 理 效率 。 


4. 数据 切 分 策略 


MapReduce 开始 工作 之 前 ，Hadoop 需要 将 来 自 异 构 存储 系统 的 大 数据 集 进行 切 分 ， 同 时 分 
发 给 各 个 map/reduce task。 每 一 个 task 按 定 义 好 的 格式 读 取 数据 。 针 对 数据 集 的 特点 设计 一 个 好 
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的 数据 切 分 策略 以 降低 网 络 传输 的 开销 , 提高 ETL 的 效率 ,ETL 框架 设 有 两 种 切 分 源 数据 的 策略 ， 
它们 是 轮 询 切 分 策略 和 哈 希 切 分 策略 。 


(1) 轮 询 切 分 策略 
行 号 为 n 的 数据 分 配给 编号 为 (n mod nl_map) 的 task， 其 中 nl_map 表示 task 的 数量 。 这 种 
策略 把 输入 数据 集 平均 地 分 配给 各 个 task， 该 策略 适合 由 多 个 task 同时 处 理 维度 数据 的 情况 。 


(2) 哈 希 切 分 策略 

该 策略 根据 一 个 或 多 个 属性 的 哈 希 值 进行 切 分 ， 属 性 哈 希 值 相 同 的 记录 行 被 指派 给 同一 个 
task。 如 果 有 nr_map 个 task, 某 一 条 记录 的 哈 希 值 为 11, 那么 它 将 被 分 配给 编号 为 Ch mod nr_ map) 
的 task。 该 策略 适合 同一 个 task 处 理 相 同属 性 值 的 所 有 记录 行 。 

Hadoop 对 源 数据 的 切 分 和 读 取 操 作 是 由 InputFormat 类 完成 的 。InputFormat 是 一 个 抽象 类 ， 
它 包含 getSplits() 和 createRecordReader() 两 个 抽象 方法 。getSplits() 确 定 对 输入 数据 的 切 分 原则 ， 
createRecordReader0 则 可 以 按 一 定格 式 读 取 相 应 数据 。 为 实现 对 源 数据 的 轮 询 切 分 和 哈 希 切 分 策 
略 ， 在 ETL 框架 中 设计 了 两 个 类 ，LineInputFormat 和 HasliInputFonnat。LineInputFormat 类 是 以 
轮 询 的 方式 切 分 数据 ，HashInputFormat 类 是 以 哈 希 方式 切 分 数据 。 它 们 都 继承 自 InputFormat 抽 
象 类 ， 并 在 getSplits0 方 法 中 实现 不 同 的 切 分 策略 。 


5. 维度 数据 ETL 设计 


基于 MapReduce 的 ETL 程序 对 数据 进行 处 理 时 ， 首 先 要 处 理 维度 数据 ， 这 样 处 理事 实数 据 
时 才能 通过 Lookup 转换 操作 获取 其 代理 键 。 

ETL 框架 使 用 MapReduce 的 Map、Partition、Combine 和 Reduce 完成 ETL 流程 。 但 是 这 些 
操作 对 用 户 是 透明 的 ， 用 户 只 需 在 配置 文件 中 定义 维 表 和 事实 表 对 象 ， 并 定制 数据 的 转换 操作 即 
可 完成 维度 数据 和 事实 数据 的 装载 。ETL 框架 设 有 两 种 维度 数据 处 理 的 方式 ， 一 种 是 One 
Dimension One Task， 简 写 为 ODOT， 即 一 个 维度 的 数据 由 一 个 map/reduce task 处 理 ， 另 一 种 是 
One Dimension All Tasks， 简 写 为 ODAT， 即 一 个 维度 的 数据 由 多 个 map/reduce task 进行 处 理 。 


6. ODOT 处 理 方式 


以 ODOT 方式 处 理 维度 数据 的 流程 是 : 首先 ，ETL 程序 按 行 读 取 源 数据 ， 然 后 ，mapper 根 
据 配 置 文件 中 维 表 的 定义 ， 对 行 数 据 做 投影 操作 ， 去 掉 不 需要 的 数据 列 ， 并 格式 化 为 key/value 
对 ，key 值 相同 的 key/value 对 被 分 配 到 同一 个 reducer 节点 ; 最后，reducer 对 数据 做 进一步 处 理 。 

在 以 ODOT 方式 对 维度 数据 进行 处 理 的 Reduce 阶段 中 ， 执 行 用 户 定制 的 转换 函数 。 转 换 函 
数 对 数据 进行 转换 操作 之 后 ， 把 数据 插入 数据 仓库 的 维 表 中 。 插 入 一 条 维度 记录 时 : 


e@ 如 果 维 表 中 不 存在 该 条 维度 数据 ， 则 插入 。 

@ 如 果 维 表 中 存在 该 条 维度 数据 且 要 插入 的 这 条 维度 数据 与 其 相 比 未 发 生变 化 , 则 什么 都 不 
做 。 

@ ”如果 维 表 中 存在 该 条 维度 数据 且 要 插入 的 这 条 维度 数据 与 其 相 比 发 生 了 变化 则 分 两 种 情 
况 进 行 处 理 。 第 一 种 情况 ， 如 果 该 条 数据 是 渐变 维度 类 型 的 ， 则 使 用 更 新 策略 对 其 进行 更 
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新 ; 第 二 种 情况 ， 如 果 该 条 数据 不 是 渐变 维度 类 型 的 ， 则 直接 在 历史 数据 上 进行 修改 。 


在 一 些 情况 下 ， 维 度数 据 可 能 会 很 大 ， 比 如 渐变 维度 数据 。 因 为 更 新 渐变 维度 数据 时 需要 添 
加 新 的 记录 行 ， 如 果 更 新 频繁 ， 则 数据 量 会 快速 增长 。 如 果 使 用 ODOT 方式 处 理 维度 数据 ， 那 么 
只 有 一 个 map/reduce task 处 理 维度 数据 ， 这 会 影响 整体 ETL 的 处 理性 能 。 针 对 大 维度 数据 的 特殊 
情况 , ETL 框架 设计 的 ODAT 维度 数据 处 理 方式 以 提高 维度 数据 处 理 的 性 能 , 维度 数据 以 ODAT 
方式 处 理 时 ，ETL 程序 使 用 轮 询 方式 划分 map 的 输出 结果 ， 这 样 ， 各 个 Reducer 将 均等 的 获取 数 
据 ， 各 个 reducer 处 理 每 个 维度 的 一 部 分 数据 ， 这 样 充 分 发 挥 了 分 布 式 处 理 的 优势 。 

由 于 各 个 task 并 行 地 处 理 一 个 维度 数据 ， 那 么 最 后 的 维度 数据 可 能 出 现代 理 键 重复 或 渐变 维 
度数 据 不 正确 等 问题 。 为 解决 这 些 数据 问题 ， 这 里 设计 了 两 种 处 理 方式 ， 使 用 全 局 代理 键 时 的 
Post-fixing 和 使 用 私有 代理 键 时 的 Post-fixing。 其 中 ，Post-fixing 是 指 当 所 有 的 task 处 理 完 维度 数 
据 并 装载 到 数据 仓库 后 ， 对 问题 数据 进行 统一 的 修改 过 程 。 


@ 使 用 全 局 代理 键 时 的 Post-fixing。 即 由 Hadoop 平台 统一 管理 和 分 配 维 度数 据 所 需 的 代理 
键 ， 这 样 不 会 发 生 代理 键 重 复 的 情况 ， 但 Lookup 属性 值 可 能 会 重复 。 当 所 有 的 task 处 理 
完 维度 数据 后 ， 再 进行 Post-fixing 处 理 。 

@ 使 用 私有 代理 键 时 的 Post-fixing。 每 个 task 节点 各 自 管理 和 分 配 维度 数据 所 需 的 代理 键 ， 
最 后 维度 数据 的 代理 键 会 有 重复 的 现象 ， 而 且 Lookup 属性 也 可 能 会 重复 。 当 所 有 的 task 
处 理 完 维度 数据 后 ， 再 进行 Post-fixing 处 理 。 





7. Post-fixing 模块 设计 


为 解决 ETL 过 程 中 出 现 的 数据 错误 问题 ， 可 以 设计 Post-fixing 模块 。 当 维度 数据 加 载 到 数据 
仓库 之 后 ， 对 其 进行 Post-fixing 过 程 以 纠正 问题 数据 。 对 问题 数据 的 纠正 主要 分 为 4 步 : 


日 为 有 重复 代理 键 的 数据 行 分 配 新 的 代理 键 。 

日 更 新 关联 维 表 的 外 键 。 

。 删除 业务 键 属性 和 外 键 属性 值 重 复 的 数据 行 。 
日 如 果 是 SCD 类 型 的 维度 ， 则 修改 SCD 属性 值 。 


Post-fxing 对 问题 数据 进行 纠正 时 需要 分 两 种 情况 解决 问题 , 即 各 个 mapReduce task 使 用 的 是 
全 局 代理 键 策略 还 是 私有 代理 键 策略 。 


8. 事实 数据 ETL 设计 


ETL 框架 中 ， 第 二 阶段 是 对 事实 数据 的 处 理 ， 主 要 包括 查找 维度 代理 键 、 对 度量 做 聚集 操作 
并 把 处 理 后 的 数据 装载 到 数据 仓库 中 。 查 找 代理 键 时 ， 为 ETL 框架 设计 了 Lookup 转换 策略 。 以 
Lookup 转换 方式 查找 维度 数据 代理 键 的 流程 是 : 首先 ，Lookup 函数 把 整个 维度 数据 加 载 到 主 存 
中 ; 然后 ， 对 维 表 中 的 业务 键 与 源 数据 表 中 相对 应 的 业务 键 进行 映射 ; 最 后 ，Lookup 返回 维度 数 
据 的 代理 键 。 与 维度 数据 ETL 类 似 ， 事 实 表 同 样 是 在 配置 文件 中 进行 定义 的 。 处 理事 实数 据 时 ， 
首先 从 配置 文件 中 获取 事实 表 的 定义 ， 根 据 事实 表 的 定义 ， 获 取 事实 表 所 引用 的 维度 ， 分 别 使 用 
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Lookup 转换 获取 维度 数据 的 代理 键 。 然 后 根据 用 户 配 置 的 转换 函数 ， 对 数据 进行 转换 操作 。 最 后 
把 数据 插入 到 维 表 中 。 

读数 据 ， 获 得 配置 文件 的 过 程 可 作为 Map 函数 或 Reduce 函数 。 如 果 没 有 聚集 操作 ， 可 把 该 
函数 配置 为 Map 函数 ， 并 省 略 Reduce 过 程 ， 则 可 取得 更 好 的 性 能 。 如 果 需 要 聚集 操作 ， 则 把 该 
函数 配置 为 reduce 函数 。 这 种 设计 方式 不 但 灵活 而 且 性 能 好 。 


9. 维度 ETL 优化 


进行 增 量 加 载 时 ， 如 果 把 大 量 维度 数据 从 mapper 划分 给 reducer， 效 率 会 很 低 。 假 设 加 载 之 
前 根据 业务 键 以 哈 希 方式 对 数据 进行 分 割 , 产生 三 个 维度 数据 文件 D1、D2 和 D3, 每 个 文件 中 的 
维度 数据 具有 相同 的 业务 键 ， 这 三 个 文件 分 别 在 数据 节点 Nodel、Node2 和 Node3 上 。 使 用 相同 
的 方式 对 增 量 数据 进行 划分 ， 假 设 数据 被 分 割 为 两 个 文件 ，S1 和 S3。D1 和 S1 的 业务 键 值 相同 ， 
D3 和 S3 的 业务 键 值 相同 。 当 在 HDFS 中 创建 S1 和 S3 时， 如果 根 据 块 分 配 策略 能 使 S1 和 D1 放 
在 同一 个 数据 节点 上 , S3 和 D3 放 在 同一 个 数据 节点 上 , 那么 只 通过 Map 阶段 在 本 地 即 可 完成 维 
度数 据 的 增 量 加 载 ， 而 不 需 再 把 维度 数据 划分 给 reducer， 大 大 减少 了 网 络 开销 。 

从 Hadoop 0.21.0 开始 ， 用 户 可 以 通过 配置 属性 dfs.block.replicater .classname 定制 块 的 分 配 策 
略 ， 这 为 实现 块 分 配 策略 算法 的 优化 提供 了 可 能 。 这 里 设计 的 优化 算法 是 根据 扩展 名 定位 文件 ， 
即 文件 扩展 名 跟 正则 表达 式 匹 配 的 文件 放 在 一 起 ， 正 则 表达 式 可 在 name node 配置 文件 
core-site.xml 中 进行 定义 。 对 Hadoop 中 块 分 配 策略 的 优化 算法 核心 思想 如 下 。 

当 NameNode 节点 启动 时 ， 首 先 创建 哈 希 目录 M， 它 存放 数据 节点 和 与 之 关联 的 节点 中 块 信 
息 的 上 映射， 比如， 文件 扩展 名 与 正则 表达 式 相 匹配 的 文件 块 的 总 数目 。 当 向 HDFS 中 写 入 一 个 数 
据 块 时 ， 首 先 要 向 NameNode 询问 ， 为 数据 块 选择 目标 节点 以 及 块 的 副本 。NameNode 检查 它 的 
文件 名 是 否 与 正则 表达 式 相 匹配 ， 如 果 其 文件 名 与 正则 表达 式 不 匹配 ，NameNode 使 用 HDFS 默 
认 的 策略 为 其 选择 目标 节点 。 如 果 该 数据 块 的 文件 名 与 正则 表达 式 匹 配 ，NameNode 则 根据 M 中 
的 统计 信息 选择 为 其 目标 节点 。 若 M 是 空 ， 则 表明 写 入 的 是 某 个 节点 的 第 一 个 数据 块 ， 那 么 
NameNode 根据 HDFS 默认 的 块 分 配 策略 为 其 选择 目标 节点 并 更 新 M; 若 M 不 是 空 ,分 配 策略 是 ， 
选择 那些 块 的 数量 最 多 并 且 有 足够 空间 的 节点 (该 算法 根据 块 的 数量 值 对 M 排序 ， 并 把 各 个 节点 
放 进 一 个 队列 Q)， 当 Q 中 没有 满足 要 求 的 节点 个 数 时 ，NameNode 随机 选择 一 个 空闲 节点 ， 被 
选择 的 每 个 节点 需要 检查 它 是 否 满足 选择 标准 以 及 是 否 有 充足 的 空间 。 

对 基于 MapReduce 的 ETL 框架 的 易 用 性 和 性 能 进行 实验 测试 ， 首 先 ，Hadoop 基于 廉价 的 硬 
件 即 可 搭建 一 个 高 性 能 的 计算 机 群 ， 然 后， 模拟 数据 集 的 规模 从 40GB 到 320GB 不 等 ; 最 后 ， 与 
Hive 中 的 ETL 工具 进行 了 对 比分 析 ， 主 要 从 维度 数据 装载 、 数 据 装载 、 大 维度 数据 装载 和 事实 
数据 装载 4 个 方面 对 该 ETL 工具 和 Hive 提供 的 ETL 工具 的 处 理 时 间 进行 了 对 比分 析 。 实 验 过 程 
中 发 现 ， 使 用 Hive 实现 ETL 程序 需要 复杂 的 脚本 编程 ， 而 该 ETL 框架 的 使 用 更 为 简单 ， 大 大 减 
少 了 代码 编写 量 。 而 且 实验 结果 显示 ， 基 于 该 ETL 框架 实现 的 ETL 工具 的 处 理性 能 在 时 间 上 要 
比 Hive 节约 70% 左 右 。 

随 着 对 大 数据 价值 认识 的 深入 ， 大 数据 的 典型 特征 又 加 入 了 一 个 价值 维度 ， 用 以 描述 大 数据 
的 价值 。 在 现实 应 用 中 ， 数 据 量 大 的 数据 并 不 一 定 有 很 大 的 价值 。 大 数据 带 来 的 潜在 经 济 价值 和 
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社会 价值 巨大 ， 但 这 些 价值 必须 通过 数据 的 有 效 整 合 、 分 析 和 挖掘 才能 释放 出 来 。 数 据 的 整合 是 
建立 数据 仓库 的 必要 工作 ， 针 对 结构 化 数据 的 整合 有 很 多 解决 方案 和 软件 工具 。 目 前 的 挑战 是 非 
结构 化 数据 的 融合 和 整合 ， 如 文本 数据 、 图 像 数据 、 信 号 数据 、 音 频数 据 、 视 频数 据 等 。 

大 数据 带 来 的 变化 之 一 是 对 象 的 属性 越 来 越 多 ， 虽 然 表 达 对 象 的 信息 越 来 越 丰 富 ， 但 成 千 上 
万 的 属性 也 造成 巨大 的 维度 灾难 。 与 此 同时 ， 这 种 超 高 维 数 据 也 带 来 其 他 一 些 问题 ， 如 复杂 数据 
类 型 问题 、 噪 声 和 默认 值 问 题 、 分 布 不 平衡 问题 、 属 性 相关 问题 等 。 这 些 问 题 虽然 在 一 般 性 数据 
分 析 中 普遍 存在 ， 但 超 高 维 数据 使 得 这 些 问题 更 难处 理 。 网 络 社会 化 文本 数据 ， 如 微 博 数据 ， 就 
属于 这 类 大 数据 ， 表 达 微 博 内 容 的 关键 词 属性 可 以 有 几 万 个 ， 而 处 理 的 微 博 数量 也 是 百 万 或 千 万 
级 。 

超 高 维 数据 不 适合 用 传统 的 全 空间 方法 来 分 析 ， 因 为 超 高 维 数据 带 有 很 大 的 稀疏 性 ， 对 和 象 簇 
和 类 别 的 表达 体现 在 部 分 属性 子 集 ， 较 有 效 的 分 析 方 法 是 采用 子 空间 方法 。 同 时 ， 由 于 数据 的 复 
杂 性 ， 单 一 的 数据 挖掘 模型 ， 如 决策 树 模型 ， 难 以 满足 应 用 的 精度 要 求 ， 必 须 采 用 多 个 模型 的 集 
成 学 习 方法 建立 聚 类 或 分 类 的 集成 模型 ， 通 过 多 个 单一 模型 的 综合 结果 做 出 最 后 的 决策 。 

大 数据 分 析 的 另 一 科学 问题 是 超过 千 万 或 亿 的 数量 级 后 ， 这 样 大 的 输入 数据 远 远 超 出 大 多 数 
服务 器 的 内 存 ， 更 不 用 说 在 单一 服务 器 上 用 复杂 的 迭代 或 递归 数据 挖掘 算法 进行 建 模 和 挖掘 。 因 
此 ， 现 有 的 数据 挖掘 软件 和 大 多 数 传统 的 分 类 和 聚 类 等 算法 无 法 处 理 这 个 规模 的 数据 。 

大 数据 分 析 与 挖掘 的 另 一 科学 问题 是 分 析 方 法 和 分 析 手 段落 后 。 当 前 普遍 采用 的 数据 挖掘 建 
模 方法 是 样本 一 建 模 一 测试 三 步骤 方法 ， 建 模 的 过 程 由 算法 自动 完成 ， 模 型 建 好 后 ， 用 户 对 模型 
进行 测试 ， 结 果 不 满意 ， 改 变 训练 数据 和 算法 参数 ， 由 算法 自动 产生 新 的 模型 。 这 种 方法 不 适用 
于 大 数据 分 析 ， 因 为 数据 大 ， 算 法 建 模 的 时 间 较 长 ， 多 次 重复 建 模 步 骤 使 计算 成 本 和 能 耗 加 大 。 
因此 ， 必 须 研 究 新 的 大 数据 分 析 方法 。 

提高 大 数据 分 析 与 挖掘 的 效率 和 效果 的 方法 之 一 是 改变 建 模 的 全 自动 过 程 ， 实 现 大 数据 建 模 
人 机 交互 ， 让 分 析 人 员 的 领域 知识 融入 到 建 模 过 程 中 ， 通 过 人 机 交互 获得 优化 模型 。 实 现 大 数据 
建 模 过程 人 机 交互 需要 解决 两 大 关键 技术 是 交互 式 数据 挖掘 算法 和 数据 及 模型 可 视 化 。 交 互 式 算 
法 在 建 模 过 程 中 生成 大 量 中 间 结 果 ， 用 可 视 化 技术 展现 给 分 析 人 员 ， 分 析 人 员 可 以 通过 观察 分 析 
建 模 的 阶段 性 结果 ， 调 整 算法 参数 或 输入 数据 ， 指 引 交 互 式 算法 向 优化 模型 的 方向 计算 。 

“大 数据 ”时 代 充 满 了 机 遇 与 挑战 ， 谁 能 够 最 快 地 习惯 这 种 新 形式 下 的 数据 模式 ， 熟 悉 掌握 
处 理 这 种 数据 处 理 方法 ， 谁 就 会 在 之 后 的 信息 战 中 占 得 先 机 ， 取 得 主动 权 。 





3.5.3 ”ETL 工具 


1. ETL 工具 简 述 


ETL 所 完成 的 工作 主要 包括 三 方面 。 首 先 ， 在 数据 仓库 和 业务 系统 之 间 搭 建 起 一 座 桥梁 ， 确 
保 新 的 业务 数据 源源 不 断 地 进入 数据 仓库 ; 其 次 , 用 户 的 分 析 和 应 用 也 能 反映 出 最 新 的 业务 动态 ， 
虽然 ETL 在 数据 仓库 架构 的 三 部 分 中 技术 含量 并 不 算 高 ， 但 其 涉及 大 量 的 业务 逻辑 和 异 构 环境 
因此 在 一 般 的 数据 仓库 项 目 中 ETL 部 分 往往 也 是 牵扯 精力 最 多 的 ; 第 三 ， 如 果 从 整体 角度 来 看 ， 
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ETL 主要 作用 在 于 屏蔽 了 复杂 的 业务 逻辑 ， 从 而 为 各 种 基于 数据 仓库 的 分 析 和 应 用 提供 了 统一 的 
数据 接口 ， 这 也 是 构建 数据 仓库 最 重要 的 意义 所 在 。 正 确 选择 ETL 工具 ， 可 以 从 ETL 对 平台 的 
支持 、 对 数据 源 的 支持 、 数 据 转换 功能 、 管 理 和 调度 功能 、 集 成 和 开放 性 、 对 元 数据 管理 等 功能 
出 发 。 

随 着 各 种 应 用 系统 数据 量 的 飞速 增长 和 对 业务 可 靠 性 等 要 求 的 不 断 提 高 ， 人 们 对 数据 抽取 工 
具 的 要 求 往往 是 将 几 十 、 上 百 个 GB 的 数据 在 有 限 的 几 个 小 时 内 完成 抽取 转换 和 装载 工作 ， 这 种 
挑战 势必 要 求 抽取 工具 对 高 性 能 的 硬件 和 主机 提供 更 多 支持 。 因 此 ， 可 以 从 数据 抽取 工具 支持 的 
平台 ， 来 判断 它 能 否 胜 任 企业 的 环境 ， 目 前 主流 的 平台 包括 SUN Solaris、HP-UX、IBM AIX、 
AS/400、OS/390、Sco UNIX、Linux、Windows 等 。 

对 数据 源 支 持 的 重要 性 不 言 而 喻 ， 因 此 这 个 指标 必须 仔细 地 考量 。 首 先 ， 我 们 需要 对 项 目 中 
可 能 会 遇 到 的 各 种 数据 源 有 一 个 清晰 的 认识 ; 其 次 对 各 种 工具 提供 的 数据 源 接口 类 型 也 要 有 深入 
了 解 ， 比 如 ， 针 对 同一 种 数据 库 ， 使 用 通用 的 接口 (如 ODBC/JJDBC) 还 是 原 厂 商 自己 的 专用 接 
口 ， 数 据 抽取 效率 都 会 有 很 大 差别 ， 这 直接 影响 到 能 不 能 在 有 限 的 时 间 内 完成 ETL 任务 。 

数据 转换 是 ETL 中 最 令 人 头疼 的 问题 ,由 于 业务 系统 的 开发 一 般 有 一 个 较 长 的 时 间 跨 度 ， 这 
就 造成 一 种 数据 在 业务 系统 中 可 能 会 有 多 种 完全 不 同 的 存储 格式 ， 甚 至 还 有 许多 数据 仓库 分 析 中 
所 要 求 的 数据 在 业务 系统 中 并 不 直接 存在 ， 而 是 需要 根据 某 些 公式 对 各 部 分 数据 进行 计算 才能 得 
到 。 因 此 ， 这 就 要 求 ETL 工具 必须 对 所 抽取 的 数据 进行 灵活 的 计算 、 合 并 、 拆 分 等 转换 操作 。 通 
常情 况 下 ， 我 们 遇 到 的 ETL 转换 要 求 包括 : 字段 映射 ;映射 的 自动 匹配 ; 字段 的 拆 分 ;多 字段 的 
混合 运算 ， 跨 异 构 数据 库 的 关联 : 自 定义 函数 :多 数据 类 型 支持 ;复杂 条 件 过 滤 ; 支持 脏 读 ， 数 
据 的 批量 装载 , 时间 类 型 的 转换 ， 对 各 种 码 表 的 支持 ; 环境 变量 是 否 可 以 动态 修改 ; 去 重复 记录 ; 
抽取 断 点 ;记录 间 合 并 或 计算 ， 记 录 拆 分 ， 抽 取 的 字段 是 否 可 以 动态 修改 ;， 行 、 列 变换 ， 排序; 
统计 ; 度量 衡 等 常用 的 转换 函数 ;代理 主键 的 生成 ;调试 功能 ;抽取 远程 数据 ; 增 量 抽取 的 处 理 
方式 ， 制 造 样品 数据 ;在 转换 过 程 中 是 否 支持 数据 比较 的 功能 ;数据 预览 ， 性 能 监控 ， 数 据 清洗 
及 标准 化 ， 按 行 、 按 列 的 分 组 聚合 等 。 

由 于 对 数据 抽取 的 要 求 越 来 越 高 以 及 专业 ETL 工具 的 不 断 涌现 , ETL 过 程 早已 不 再 是 一 个 简 
单 的 小 程序 就 可 完成 的 ， 目 前 主流 的 工具 都 采用 像 多 线程 、 分 布 式 、 负 载 均衡 、 集 中 管理 等 高 性 
能 、 高 可 靠 性 与 易 管理 和 扩展 的 多 层 体 系 架构 。 因 此 ， 这 就 要 求 ETL 在 管理 和 调度 功能 上 都 具备 
相应 的 功能 。 管 理 和 调度 的 基本 功能 包括 : 抽取 过 程 的 备份 与 恢复 ; 升级， 版 本 管理 ， 开 发 和 发 
布 ; 支持 统一 以 及 自 定义 的 管理 平台 ; 支持 时 间 触 发 方式 支持 事件 触发 方式 ， 支持 命令 行 执行 
方式 ;支持 用 户 对 计算 机 资源 的 管理 和 分 配 ;负载 均衡 ; 文档 的 自动 生成 ， 调 度 过 程 中 能 否 执行 
其 他 任务 等 。 

随 着 数据 仓库 技术 在 国内 应 用 的 不 断 深 入 , 许多 开发 商 希 望 不 向 用 户 提供 ETL 工具 的 原来 操 
作 界 面 ， 而 是 将 其 一 些 主要 功能 模块 嵌入 到 自己 的 系统 或 其 他 厂商 的 系统 中 ， 因 为 在 大 多 数 情况 
下 一 般 项 目 只 会 用 到 ETL 工具 的 少数 几 个 功能 ， 同 时 也 没有 必要 给 用 户 提供 那么 复杂 的 操作 环 
境 ， 其 结果 反而 使 用 户 容易 产生 操作 错误 。 上 述 问 题 就 要 求 ETL 工具 能 提供 很 好 的 集成 性 和 开放 
性 ， 可 以 从 几 方面 考量 : 与 OLAP 集成 ; 与 前 端 工具 集成 ; 与 建 模 工 具 集成 ; 开放 的 API 可 将 产 
品 集成 到 统一 界面 ; 是 否 能 调用 各 种 外 部 应 用 ,包括 存储 过 程 、 各 种 流行 语言 开发 的 应 用 程序 等 ; 
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是 否 支 持 客户 化 定制 的 转换 过 程 ， 是 否 支 持 与 统计 分 析 工 具 的 集成 等 。 

元 数据 是 关于 数据 的 数据 ， 对 于 ETL 来 说 尤其 重要 。ETL 中 大 量 的 数据 源 定义 、 映 射 规则 、 
转换 规则 、 装 载 策略 等 都 属于 元 数据 范畴 ， 如 何 妥 善 地 存储 这 些 信息 已 经 关系 到 ETL 过 程 能 否 顺 
利 完成 而 且 影响 到 后 期 的 使 用 和 维护 .任何 业务 逻辑 的 微小 改变 最 终 都 落实 为 相应 元 数据 的 调整 ， 
初期 没有 一 个 完善 的 元 数据 管理 功能 而 后 期 做 类 似 调整 几乎 是 不 可 完成 的 任务 。 基 于 元 数据 的 重 
要 性 ， 国 际 组 织 提出 一 些 统一 的 元 数据 存储 标准 ， 比 较 知名 的 如 CWM 等 ， 为 不 同 厂商 工具 之 间 
互 操作 提供 了 可 能 性 ， 相 信也 是 今后 的 发 展 趋势 。 

针对 ETL 的 元 数据 管理 包括 : 元 数据 存储 的 开放 性 ; 元 数据 存储 的 可 移植 性 ， 提供 多 种 方式 
访问 元 数据 ， 元 数据 的 版 本 控制 ;支持 开放 的 元 数据 标准 ;支持 XML 进行 元 数据 交换 ， 支 持 分 
布 式 的 元 数据 访问 和 管理 ; 生成 元 数据 报表 ; 对 于 ETL 过 程 的 冲突 分 析 ; 基于 元 数据 的 查询 功能 ; 
元 数据 的 广播 和 重用 ， 对 于 ETL 过 程 的 流程 分 析 等 。 

目前 市 场 上 主流 的 ETL 工具 可 以 分 为 两 大 类 : 一 类 是 专业 ETL 厂商 的 产品 ， 这 类 产品 一 般 
都 具备 较 完 善 的 体系 结构 和 久 经 考验 的 产品 ， 产 品 功 能 之 复杂 和 详尽 ， 往 往 能 令 初次 接触 的 人 睡 
目 ， 但 其 高 昂 的 价格 也 会 使 一 般 用 户 望 而 却步 ， 另 一 类 是 整体 数据 仓库 方案 供应 商 ， 他 们 在 提供 
数据 仓库 存储 、 设 计 、 展 现 工具 的 同时 也 提供 相应 的 ETL 工具 ， 这 类 产品 一 般 对 自己 厂商 的 相关 
产品 有 很 好 的 支持 并 能 发 挥 出 其 最 大 效率 ， 但 结构 相对 封闭 ， 对 其 他 厂商 产品 的 支持 也 很 有 限 。 

专业 ETL 厂商 和 产品 有 : OWB (Oracle Warehouse Builder)、ODI (Oracle Data Integrator)、 
Informatic PowerCenter (Informatica 公司 )、AICloudETL、DataStage (Ascential 公司 )、Repository 
Explorer\、Beeload、Kettle .DataSpider`ETL Automation( NCR Teradata 公司 )、 Data Integrator( Business 
Objects 公司 )、DecisionStream (Cognos 公司 )。 


2. 主流 ETL 工具 
做 ETL 产品 的 造型 ， 需 要 从 成 本 、 人 员 经 验 、 案 例 和 技术 支持 来 考量 。 在 此 介绍 几 种 主流 


ETL 产品 ,包括 Ascential 公司 的 DataStage、Oracle 的 Oracle Warehouse Builder(OWB)、Informatica 
公司 的 PowerCenter 和 NCR Teradata 公司 的 ETL Automation。 


(1) DataStage 

DataStage 是 由 IBM 公司 开发 的 ， 是 一 套 专门 对 多 种 操作 数据 源 的 数据 抽取 、 转 换 和 维护 过 
程 进行 简化 和 自动 化 ， 并 将 其 输入 数据 集 市 或 数据 仓库 目标 数据 库 的 集成 工具 。DataStage 使 用 图 
形 化 概念 来 构建 数据 集成 并 拥有 多 个 版 本 ， 如 服务 器 版 本 和 企业 版 本 。DataStage 支持 工业 标准 和 
连接 需求 ， 可 以 解决 商业 上 的 实时 问题 。DataStage 的 体系 架构 是 开放 和 可 扩展 的 ， 这 意味 着 新 技 
术 可 以 迅速 被 用 于 具体 的 工具 需求 ， 从 而 加 快 实施 ， 减 少 风险 并 增加 操作 效率 。DataStage 能 够 
处 理 多 种 数据 源 的 数据 ， 包 括 主机 系统 的 大 型 数据 库 、 开 放 系统 上 的 关系 数据 库 和 普通 的 文件 系 
统 等 ， 它 所 能 处 理 的 主要 数据 源 包括 : 

@ 大 型 主机 系统 数据 库 。IMS，DB2，ADABAS，VSAM 等 ; 


@ 开放 系统 的 关系 数据 库 。Informix，Oracle，Sybase，DB2，Microsoft SQL Server 等 ; 
e ERP 系统 。SAP/R3，PeopleSoft 系统 等 ; 
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日 普通 文件 和 复杂 文件 系统 。FTP 文件 系统 ，XML 等 ; 
@ Web 服 务 器 系统 。IIS，Netscape，Apache 等 ; 
e Email 系统 。Outlook 等 ; 


DataStage 可 以 从 多 个 不 同 的 业务 系统 中 ， 从 多 个 平台 的 数据 源 中 抽取 数据 ， 完 成 转换 和 清 
洗 ， 装 载 到 各 种 系统 里 面 。 其 中 每 步 都 可 以 在 图 形 化 工具 里 完成 ， 同 样 可 以 灵活 地 被 外 部 系统 调 
度 ， 提 供 专门 的 设计 工具 来 设计 转换 规则 和 清洗 规则 等 ， 实 现 了 增 量 抽取 、 任 务 调度 等 多 种 复杂 
而 实用 的 功能 。 其 中 简单 的 数据 转换 可 以 通过 在 界面 上 拖拉 操作 和 调用 一 些 DataStage 预定 义 转 
换 函 数 来 实现 ， 复 杂 转 换 可 以 通过 编写 脚本 或 结合 其 他 语言 的 扩展 来 实现 。DataStage 提供 调试 环 
境 ， 可 以 极 大 提高 开发 和 调试 抽取 、 转 换 程序 的 效率 。 

DataStage 是 基于 客户 机 /服务 器 的 数据 集成 架构 ， 优 化 数据 收集 、 转 换 和 巩固 的 过 程 。 它 提 
供 了 一 套图 形 化 的 客户 工具 ， 包 括 : 


@ Designer (设计 器 ) : 创建 执行 数据 集成 任务 Job 的 同时 ， 对 数据 流 和 转换 过 程 创建 一 个 
可 视 化 的 演示 。 

。 Manager (管理 器 ) : 对 每 个 工程 的 各 个 单元 ， 包 括 库 表 定 义 、 集 中 的 数据 转换 、 元 数据 
连接 等 对 象 进行 分 类 和 组 织 。 

e@ Director (控制 器 ) : 为 启动 、 停 止 、 监 视 作业 提供 交互 式 控制 。 

ee Administrator ( 管理 器 ) : 在 服务 器 端 管理 DataStage 的 项 目 和 使 用 者 权限 的 分 配 ,在 v8.1 
版 本 中 ，Manager (管理 器 ) 已 经 取消 ， 合 并 到 Designer。 


DataStage 具有 易 操 作 性 , 大 容量 、 复 杂事 物 的 处 理 几乎 是 自动 实现 的 , 不 需要 添加 额外 编码 ， 
而 且 可 以 快速 地 返回 结果 。 可 以 快速 地 、 无 颖 地 与 大 部 分 的 主流 应 用 程序 、 数 据 库 和 信息 系统 集 
成 ; 可 以 灵活 响应 ， 快 速 地 进行 商业 策略 需求 的 演变 ， 可 以 对 基于 项 目的 企业 系统 和 应 用 程序 进 
行 补充 或 满足 全 集成 方案 的 需求 。 
作为 最 强大 的 ETL 工具 ，DataStage 提供 了 独一无二 的 功能 : 支持 大 容量 数据 的 收集 、 集 成 
和 转换 ， 数 据 结构 可 以 是 简单 的 ， 也 可 以 是 非常 复杂 的 ; 实时 处 理 数据 ， 可 以 是 每 日 、 每 周 或 是 
每 月 到 达 的 数据 。DataStag 允许 企业 通过 高 性 能 的 处 理 海量 数据 集 的 方式 来 解决 大 范围 的 商业 问 
题 ， 通 过 扩展 多 处 理 器 硬件 平台 的 并 行 处 理 能 力 ，DataStage 企业 版 可 以 满足 不 断 增长 的 数据 和 实 
时 的 并 行 处 理 的 要 求 。DataStage 允许 在 一 个 简单 的 作业 (job) 中 ， 支 持 虚拟 的 数量 限制 的 异 质 
数据 源 和 目标 数据 源 包括 文本 文件 XML 中 的 复杂 数据 结构 、 ERP 系统 (如 SAP 和 PeopleSoft 入 
绝 大 多 数 的 数据 库 〈 包 括 并 行 数据 库 )、Web 服务 和 SAS。DataStage 的 主要 特点 如 下 : 
e@ 数据 源 连接 能 力 。 数据 整合 工具 的 数据 源 连接 能 力 是 非常 重要 的 ， 这 将 直接 决定 它 能 够 应 
用 的 范围 。DataStage 能 够 直接 连接 非常 多 的 数据 源 ， 包 括 : 文本 文件 、XML 文件 、 企 
业 应 用 程序 、 几 乎 所 有 的 数据 库 系 统 、Web Services、SAS、WebSphere MQ。 
@ 多 国语 言 支持 (NLS ) 。DataStage 能 够 支持 几乎 所 有 编码 ， 以 及 多 种 扩展 编码 (IBM、 
NEC、 富 士 通 、 日 立 等 ) ， 可 以 添加 编码 的 支持 ，DataStage 内 部 为 UTF8 编码 。 
@ 并 行 运行 能 力 。ETL Job 的 控件 大 多 数 都 支持 并 行 运行 ， 此 外 DataStage 企业 版 还 可 以 在 
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多 台 装 有 DataStage Server 的 机 器 上 并 行 执行 。 这 也 是 传统 的 手工 编码 方式 难以 做 到 的 。 
这 样 ，DataStage 就 可 以 充分 利用 硬件 资源 。 而 且 ， 当 硬件 资源 升级 的 时 候 也 不 用 修改 已 
经 开发 好 的 ETL Job， 只 需要 修改 一 个 描述 硬件 资源 的 文件 即 可 。 并 行 执行 能 力 使 
DataStage 所 能 处 理 数据 的 速度 可 以 得 到 趋 近 于 线性 的 扩展 ， 轻 松 处 理 大 量 数 据 。 

e@ 便捷 的 开发 环境 。DataStage 的 开发 环境 是 基于 C/S 模式 的 ， 通 过 DataStage Client 连接 
到 DataStage Server 上 进行 开发 。 这 里 有 一 点 需要 注意 ，DataStage Client 只 能 安装 在 
Windows 平台 上 (在 Win2000/XP 上 运行 过 )。 而 DataStage Server 则 支持 多 种 平台 ， 比 
如 Windows、Solaris、Redhat Linux、AIX、HP-UNIX (在 WinXP/Solaris8 上 运行 过 ) 。 
DataStage Client 有 4 种 客户 端 工具 分 别 是 DataStage Administrator DataStage Designer、 
DataStage Manager、DataStage Director。 下 面 介绍 这 几 种 客户 端 工具 在 DataStage 架构 中 
所 处 的 位 置 以 及 它们 是 如 何 协同 工作 来 开发 ETL Job 的 。 

@ 命令 行 形式 的 运行 ETL Job 支持 在 DataStage Server 端 用 命令 行 形式 调用 , 可 以 用 dsadmin 
命令 来 管理 DataStage 的 Project， 和 包括 Project 的 新 建 、 删 除 以 及 一 些 环境 变量 的 增删 
(DataStage 7.5.1 下 未 能 通过 dsadmin 来 设置 全 局 NLS 和 一 些 项 目 属性 ) 使 用 dsjob 命令 
能 够 同步 或 非 同步 地 运行 DataStage 的 Job， 并 传递 需要 的 Job 参数 ， 能 够 检查 Job 运行 的 
状态 ， 并 能 恢复 Job 的 运行 状态 。 

e。 DataStage 的 不 足 以 上 都 是 说 DataStage 优点 , 但 实际 上 DataStage 也 有 不 少 缺 点 和 不 足 ， 
这 些 不 足 点 会 直接 影响 到 能 否 采 用 DataStage 来 达到 客户 或 设计 要 求 。 如 一 些 高 级 控件 的 
功能 不 够 全 面 ， 在 实际 应 用 时 ， 会 出 现 不 能 完全 利用 DataStage 提供 的 控件 来 满足 要 求 ， 
如 Sybase 的 BCP、DataStage 的 Sybase BCP 控件 只 支持 导出 、 无 法 支持 导入 。 


(2) Oracle Warehouse Builder 
Oracle Warehouse Builder (OWB) 是 Oracle 公司 于 1998 年 推出 的 一 个 用 于 帮助 企业 构建 数 
据 仓库 的 集成 工具 。OWB 将 从 前 各 自分 离 的 产品 提供 的 功能 集成 到 一 个 公共 的 环境 ， 它 提供 了 
-个 易于 使 用 的 图 形 环境 ， 用 于 快速 设计 、 部 署 和 管理 商务 智能 系统 。 其 功能 包括 : 数据 模型 构 
造 和 设计 、 数 据 提取 、 移 动 和 装载 ((ETL)、 元 数据 管理 、 分 析 工具 的 整合 以 及 数据 仓库 的 管理 。 
OWB 提供 了 一 个 框架 将 数据 仓库 的 各 个 部 分 包括 关系 数据 库 服务 器 、 多 维 数据 库 服 务 器 和 前 端 
分 析 工 具 相 结合 ， 从 而 产生 了 一 个 紧密 集成 、 全 面 的 数据 仓库 和 商业 智能 (BI) 解决 方案 。OWB 
减少 了 企业 建设 数据 仓库 的 时 间 、 成 本 和 工作 量 。 开 发 项 目 小 组 成 员 现 在 可 以 在 一 个 单一 的 环境 
来 实施 和 管理 复杂 的 数据 仓库 系统 。 
OWB 的 核心 领域 为 企业 元 数据 管理 、 企 业 数 据 集成 、 完 整 的 系统 设计 、 集 成 的 质量 以 及 开 
放 性 。OWB 具有 如 下 特点 : 


日 全 面 的 数据 仓库 功能 。 与 其 他 工具 不 同 ，OWB 更 适合 具有 智能 的 数据 仓库 的 特殊 要 求 ， 
从 它 的 设计 和 生成 功能 到 从 多 个 来 源 提取 数据 和 向 目标 数据 仓库 装载 数据 ，OWB 的 每 一 
个 方面 都 降低 了 企业 数据 仓库 项 目的 复杂 性 。 

e 强调 数据 仓库 的 管理 目前 市 场 上 的 很 多 数据 仓库 工具 产品 往往 只 强调 数据 仓库 的 生成 过 
程 , 而 忽略 了 对 数据 仓库 进行 管理 的 需要 OWB 在 提供 强大 的 数据 仓库 生成 功能 的 同时 ， 
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更 强调 对 企业 数据 仓库 的 管理 。 需 要 说 明 的 是 ，OWB 的 管理 功能 可 以 被 集成 到 Oracle 
Enterprise Manager (OEM ) 中 ， 从 而 提供 一 个 无 终 的 企业 管理 工具 。 

@ 支持 复杂 的 提取 、 转 换 和 传输 过 程 . OWB 通过 Oracle 提供 的 透明 网 关 技术 ,支持 从 Oracle 
数据 库 、ODBC 数据 源 和 大 型 主机 系统 中 快速 提取 和 有 效 装载 数据 。OWB 还 支持 多 种 类 
型 的 数据 转换 方法 ， 并 能 对 转换 过 程 进行 记录 ， 从 而 不 断 强化 定义 的 商业 规则 ， 保 证 被 转 
换 和 装载 数据 的 完整 性 。 

® 利用 数据 库 服务 器 提高 性 能 。Oracle 一 直 不 断 地 改进 和 提高 其 业界 领先 的 数据 库 产品 。 
Oracle 在 与 数据 仓库 相关 的 主要 方面 提供 了 新 的 功能 。OWB 充分 利用 了 Oracle 的 新 功 
能 ， 包 括 汇总 管理 、 数 据 分 区 和 索引 能 力 。 

与 前 端 分 析 工 具 紧 密集 成 。 数 据 仓库 的 真正 作用 在 于 信息 的 分 析 ， 数据 仓 库 的 构建 工具 只 
有 同 前 端 分 析 工 具 集 成 ， 才 能 称 为 完整 的 平台 。OWB 支持 专用 于 分 析 的 多 维 模型 ， 可 以 
生成 符合 标准 的 元 数据 (MetaData )， 可 以 和 复杂 的 分 析 工 具 如 Oracle Express、Discoverer 
相 集 成 。 

日 开放 、 可 延伸 的 框架 。OWB 提供 软件 开发 包 (SDK ) 供 客户 和 合作 伙伴 使 用 ， 通 过 使 用 
SDK 可 以 很 方便 地 扩展 OWB 的 功能 ， 定 制 客户 化 的 数据 转换 程序 。SDK 包括 对 外 公开 
的 API 和 一 个 开放 的 数据 模型 ， 第 三 方 厂商 可 以 很 方便 地 将 自己 的 应 用 与 OWB 相 结合 。 


Warehouse Builder 主要 由 以 下 几 部 分 组 成 : 


。 OWB User Interface。 一 个 图 形 化 的 、 采 用 面向 对 象 技术 ， 基 于 Java 的 框架 ， 实 现 从 任何 
平台 管理 数据 模型 建立 和 数据 仓库 环境 的 快速 构造 。 

。 OWB Repositorya OWB Repository 包含 遵循 Common Warehouse Meta data 标准 的 元 数 
据 。OWB 元 数据 用 于 建立 数据 仓库 ， 提 供 和 Oracle 数据 库 服务 器 、Express Server 以 及 
Discoverer 的 集成 ， 包 括 设计 时 和 运行 时 两 部 分 。 

。 OWB Runtime Platform Serviceo OWB 的 核心 ， 整 个 系统 的 运行 时 环境 ， 完 成 已 配置 完成 
的 ETL 过 程 。 

e OWB Software Development Kit。 使 用 SDK， 用 户 和 合作 伙伴 可 通过 集成 他 们 自己 的 数据 
抽取 程序 实现 OWB 功能 的 扩展 。 


(3) Informatica PowerCenter 
PowerCenter 是 Informatica 公司 开发 的 ， 提 供 专注 于 复杂 的 数据 集成 项 目 必需 的 工具 和 数据 
服务 平台 ， 用 来 访问 、 集 成 和 传递 数据 。 使 用 Informatica PowerCenter 企业 能 够 通过 一 次 建立 、 
任意 部 署 的 方法 从 事 多 个 不 同 的 集成 项 目 ， 允 许 更 多 的 时 间 和 资源 花费 在 企业 的 业务 上 ， 而 不 是 
企业 的 业务 整合 上 。 
Informatica PowerCenter 主要 由 2 个 Server、5 个 Client 组 成 。 


@ 2 个 Server 


Informatica Repoitory Server: 资料 库 Server， 管 理 ETL 过 程 中 产生 的 元 数据 。 
Informatica Server Engine: ETL 引擎 ， 负 责 抽 取 、 和 转换 和 装载 数据 。 
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实战 大 数据 
ee 5 个 Client 


PowerCenter Designer: 设计 开发 环境 ， 定 义 源 及 目标 数据 结构 ， 设 计 转 换 规则 ， 生 成 ETL 映 
射 。 

Workflow Manager: 合理 的 实现 复杂 的 ETL 工作 流 ， 基 于 时 间 、 事 件 的 作业 调度 。 

Workflow Monitor: 监控 Workflow 和 Session 运行 情况 ， 生 成 日 志和 报告 。 

Repository Manager: 资料 库 管理 ， 包 括 安全 性 管理 等 。 

Repository Server Administrator Console: 资料 库 的 建立 与 维护 。 

Informatica PowerCenter 提供 对 应 用 和 数据 源 的 支持 , 包括 对 ERP 系统 的 支持 , 对 CRM 系统 
的 支持 等 ， 同 时 PowerCenter 具有 极 好 的 可 扩展 性 和 可 伸缩 性 以 及 强大 的 数据 并 行 处 理 能 力 ， 这 
些 特点 使 其 可 以 较 好 地 满足 企业 数据 集成 及 应 用 集成 的 需要 。 


(4) ETL Automation 

继续 要 说 的 是 ETL Automation， 它 和 前 面 几 种 产品 的 体系 架构 有 所 差异 。 与 其 说 它 是 ETL 工 
具 ， 不 如 说 是 提供 了 一 套 ETL 框架 。 它 没有 将 注意 力 放 在 如 何 处 理 “ 转 换 ” 这 个 环节 上 ， 而 是 利 
用 Teradata 数据 库 本 身 的 并 行 处 理 能 力 , 用 SQL 语句 来 做 数据 转换 的 工作 , 其 重点 是 提供 对 ETL 
流程 的 支持 ， 包 括 前 后 依赖 、 执 行 和 监控 等 。 

这 样 的 设计 和 Datastage、Powercenter 风格 近 异 , 后 两 者 给 人 的 印象 是 具有 灵活 的 图 形 化 界面 ， 
开发 者 可 以 傻瓜 式 地 处 理 ETL 工作 ， 它 们 一 般 都 拥有 非常 多 的 “转换 ”组 件 ， 例 如 聚集 汇总 、 组 
慢 变 化 维 的 转换 。 而 对 于 Teradata 的 ETL Automation， 有 人 说 它 其 实 应 该 叫做 ELT， 即 装载 是 在 
转换 之 前 的 。 的 确 ， 如 果 依赖 数据 库 的 能 力 去 处 理 转 换 ， 恐 怕 只 能 是 ELT， 因 为 转换 只 能 在 数据 
库 内 部 进行 。 从 这 个 角度 看 ，Automation 对 数据 库 的 依赖 不 小 ， 似 乎 是 一 种 不 灵活 的 设计 。 也 正 
是 这 个 原因 ， 考 虑 它 的 成 本 就 不 单单 是 ETL 产品 的 成 本 了 。 

其 实 ， 在 购买 现成 的 工具 之 外 ， 还 有 自己 从 头 开发 ETL 程序 的 。ETL 工作 看 起 来 并 不 复杂 ， 
特别 是 在 数据 量 小 、 没 有 什么 转换 逻辑 的 时 候 ， 自 己 开发 似乎 非常 节省 成 本 。 的 确 ， 主 流 的 ETL 
工具 价格 不 菲 ， 动 辑 几 十 万 ;而 从 头 开 发 无 非 就 是 费 点 人 力 而 已 ， 可 以 控制 。 至 于 性 能 ， 大 多 人 
是 相信 自己 的 ， 认 为 自己 开发 出 来 的 东西 知 根 知 底 ， 至 少 这 些 程序 可 以 完全 由 自己 控制 。 

ETL Automation 通过 ODBC 连接 到 TeraData 数据 仓库 ， 在 TeraData 系统 中 建立 一 个 数据 库 
作为 ETL 记录 库 (Repository)。 在 Repository 中 记录 ETLAutomation 中 的 作业 定义 、 作 业 相 关 性 
以 及 关于 作业 执行 的 历史 记录 信息 .ETL Automation 软件 机 制 中 提供 了 两 个 GUI 接口 的 前 端 程序 : 

-个 是 ETLAdmin. jar， 用 来 定义 并 管理 在 ETL Automation 中 的 作业 及 作业 关联 性 ， 另 一 个 是 
ETLMonitor jar， 用 来 监视 作业 的 执行 状态 。 

实际 设计 中 ， 采 用 先 数据 转换 、 后 数据 抽取 和 数据 加 载 的 流程 。 首 先 从 多 个 异 构 业 务 系统 中 
将 需 抽取 的 数据 转换 成 符合 数据 仓库 要 求 的 形式 ， 同 时 将 这 些 源 数据 抽取 到 一 台 或 多 台 存 放 源 数 
据 的 服务 器 中 指定 的 文件 夹 下 ; 然后 ETL Automation 调度 抽取 进程 从 源 数据 存放 服务 器 中 抽取 数 
据 到 ETL 服务 器 上 ， 再 调度 加 载 进程 将 数据 从 ETL 服务 器 上 加 载 到 数据 仓库 。 

源 数据 存放 的 服务 器 采用 FTP 服务 器 ， 抽 取 进 程 采用 FTP 命令 从 服务 器 上 下 载 数据 到 ETL 
服务 器 上 。 数 据 抽取 有 PULL 和 PUSH 两 种 方式 。PUSH 指 由 源 系统 按 双 方 定 义 的 数据 格式 ， 主 
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动 将 符合 要 求 的 数据 抽取 出 来 ， 形 成 接口 数据 表 或 数据 视图 供 ETL 系统 使 用 ; PULL 则 是 由 ETL 
程序 直接 访问 数据 源 来 获取 数据 。 这 里 采用 PUSH 方式 ， 由 源 系统 方 将 符合 要 求 的 数据 抽取 出 放 
在 FTP 服务 器 中 的 指定 文件 夹 下 。 

ETL 服务 器 是 执行 ETL Automation 机 制 的 服务 器 ， 该 服务 器 上 执行 ETL Automation 系统 程 
序 ， 用 来 控制 整个 ETL 流程 。 

一 个 ETL 流程 除了 在 限定 时 间 内 完成 业务 系统 源 数据 周期 性 的 自动 加 载 外 , 还 要 具有 扩展 能 
力 。ETLAutomation 工具 可 支持 多 部 执行 作业 的 服务 器 ， 设 定 整个 ETL Automation 中 都 使 用 到 的 
ETLAutomation Server， 在 该 服务 器 中 设 定 系统 ， 用 来 将 作业 分 类 以 方便 管理 。 

在 FTP 服务 器 中 每 个 数据 文件 对 应 一 个 标志 文件 ， 相 当 于 一 个 握手 信号 ， 用 来 核对 源 数据 生 
成 时 间 和 大 小 ， 以 确保 数据 的 正确 抽取 。 首 先 执行 ETL 流程 总 调度 系统 下 的 总 控制 脚本 ， 检 查 
etlslave-nt.pl 程序 。 该 程序 检查 其 对 应 目录 下 的 所 有 文件 ， 根 据 控 带 文件 得 到 数据 文件 列表 ， 更 
新 任务 开始 时 间 ， 清除 ETL-JOB-STATUS 表 中 的 任务 ,并 在 该 表 中 插入 新 任务 , 执行 作业 的 指令 
文件 。 这 里 ，ETL-JOB-STATUS 表 用 来 记录 工作 的 执行 状态 。 

执行 数据 抽取 脚本 时 根据 ETL-FLG-DATA 表 的 顺序 依次 完成 。 在 抽取 脚本 中 ， 首 先 解析 数 
据 标志 文件 , 连接 、 登 录 到 FTP 服务 器 ; 然后 将 传输 模式 改 为 二 进 制 传输 , 并 调用 Teradat 的 BTEQ 
工具 ， 清 除数 据 仓库 中 的 对 应 表 ， 为 采用 刷新 式 加 载 做 准备 。 

ETLAutomation 根据 目录 下 的 任务 名 后 级 来 扫 断 是 抽取 脚本 还 是 加 载 脚本 ,执行 加 载 进程 前 
系统 清除 ETL-RECORD-LOG 表 记 录 , 加 载 后 向 ETL-RECORD-LOG 表 插 入 记录 。ETL- RECORD- 
LOC 表 是 数据 加 载 的 记录 表 。 在 数据 加 载 脚 本 中 ， 采用 刷新 式 加 载 方式 。 首 先 调 用 BTEQ 在 数据 
仓库 中 建 表 ; 然后 调用 Fastload 执行 存储 过 程 脚本 ， 获 取 ETL 服务 器 中 指定 目录 下 的 数据 文件 
向 已 建 空 表 加 载 数 据 。 

ETL Automation 体系 下 有 3 个 数据 目录 实现 了 数据 抽取 到 加 载 的 一 致 连贯 性 , 分 别 是 : receive 
目录 接收 源 系统 所 传送 来 的 数据 文件 及 控制 文件 ，queue 目录 存放 准备 要 执行 的 作业 所 使 用 的 数 
据 文件 及 控 带 文件 ，process 目录 存放 正在 执行 中 的 作业 所 使 用 的 数据 文件 及 控制 文件 。 


3.5.4 ETL 展望 


数据 ETL 是 数据 仓库 、 数 据 挖掘 以 及 商业 智能 等 技术 的 基石 ， 为 企业 决策 与 预测 提供 了 基本 
素材 ， 因 而 存在 着 广阔 的 发 展 空间 。 由 于 现实 需求 的 强劲 推动 ， 数 据 ETL 逐渐 成 为 当前 信息 技术 
最 为 活跃 的 研究 领域 之 一 ， 呈 现 出 通用 化 、 高 效 化 、 智 能 化 三 大 发 展 趋势 。 

数据 是 企业 进行 任何 事务 的 前 提 ，ETL 的 目的 正 是 提供 综合 且 高 品质 的 数据 ， 因 此 它 必 然 成 
为 企业 各 类 应 用 的 基础 , 为 众多 的 高 层 信息 系统 提供 服务 。 具 备 良好 的 通用 性 是 未 来 数据 ETL 软 
件 占领 市 场 的 必要 条 件 ， 这 就 要 求 它 支持 尽 可 能 多 的 数据 库 管理 系统 (DBMS)、 文 件 系统 和 数据 
采集 、 处 理 系统 ; 能够 跨 网 络 、 跨 平台 使 用 ; 具备 良好 的 可 扩展 性 ， 对 于 新 的 应 用 能 够 以 较 小 的 
代价 ， 通 过 预定 的 应 用 程序 接口 (API) 或 标准 化 语言 接口 编程 实现 互联 。 相 关 技 术 的 发 展 ， 如 
元 数据 的 标准 化 、 程 序 逻 辑 与 数据 的 统一 化 ， 为 ETI 提高 通用 性 提供 了 动力 。 

数据 ETL 针对 的 是 海量 数据 ， 效 率 极为 重要 ， 未 来 的 ETL 工具 将 是 高 效 化 的 数据 集成 工具 。 








137 


实战 大 数据 


它 必 须 具备 高 度 的 可 伸缩 性 ， 不 但 能 运行 在 昂贵 的 主机 系统 上 ， 还 能 应 用 到 工作 站 或 PC 机 上 。 
业界 也 将 提供 更 加 出 色 、 高 效 的 抽取 、 加 载 和 清洗 算法 ， 增 量 的 ETL 算法 将 成 为 主流 ,真正 避免 
重复 集成 ; 为 了 提高 计算 性 价 比 ， 并 行 算法 将 领导 潮流 ， 集 群 计算 、 网 格 运算 将 为 ETL 提供 廉价 
高 效 的 计算 资源 。 

未 来 的 ETL 将 具备 高 度 的 智能 ， 专 家 系统 、 机 器 学 习 、 神 经 网 络 、 人 工 智能 (AD) 技术 等 领 
域 的 成 果 将 在 此 处 得 到 广泛 应 用 。 数 据 源 管 理 、ETL 规则 定制 、 数 据 质量 保证 等 工作 都 将 由 机 器 
智能 来 完成 。 因 此 ， 当 前 手工 或 半 手 工 的 许多 单调 而 繁重 的 数据 集成 任务 将 不 复 存 在 ，ETL 工具 
的 使 用 也 会 不 断 简化 ， 普 通用 户 能 够 运用 智能 工具 轻松 而 高 效 地 完成 数据 的 集成 与 清洗 工作 。 

数据 ETL 工具 是 数据 仓库 获取 高 质量 数据 的 核心 部 分 , 根据 决策 需求 将 各 种 异 构 信 息 集中 到 
数据 仓库 中 ， 解 决 各 种 应 用 数据 零散 分 布 、 品 质 低下 的 现状 。 数 据 ETL 最 大 的 挑战 来 自 待 集成 多 
数据 源 的 异 构 性 ， 为 此 实施 数据 ETL 过 程 通常 被 划分 为 模式 集成 与 数据 集成 两 个 阶段 ， 这 样 有 利 
于 将 数据 转化 的 逻辑 规范 和 物理 实现 清晰 分 开 方便 管理 ， 降 低 系 统 实现 的 难度 。 


本 章 小 结 


本 章 首先 介绍 了 数据 抽取 方面 的 内 容 ， 侧 重 介绍 了 Web 方向 的 数据 抽取 框架 ， 简 述 了 Web 
抽取 面临 的 各 种 问题 和 解决 方案 。 同 时 介绍 了 在 大 数据 环境 下 ， 面 对 大 量 的 非 结 构 化 数据 的 组 织 
抽取 ， 突 出 了 非 结构 化 数据 的 数据 模型 、 属 性 获取 策略 等 ， 提 出 了 基于 云 计算 的 海量 数据 分 析 设 
计 思 路 。 第 二 部 分 侧重 于 数据 清洗 ， 首 先 简介 数据 抽取 的 背景 意义 ， 以 及 数据 质量 的 标准 、 普 遍 
的 设计 流程 和 框架 。 列 举 了 通常 遇 到 的 问题 和 解决 方案 ， 给 出 在 Hadoop 环境 下 基于 分 布 式 的 数 
据 清洗 设计 。 最 后 简 述 ETL 的 现状 和 发 展 ， 并 给 出 常用 的 ETL 工具 介绍 ， 以 及 未 来 发 展 前 景 展 
望 。 综合 本 章 内 容 ， 可 以 为 大 数据 实战 葛 定 部 分 基础 。 
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在 介绍 数据 获取 、 存 储 、 抽 取 与 清洗 技术 之 后 ， 相 信 各 位 读者 已 经 对 如 何 从 海量 数据 中 进行 
抓 取 、 存 储 以 及 初步 处 理 比 较 清楚 了 。 海 量 数据 意味 着 很 高 的 价值 ， 然 而 ， 只 是 对 海量 数据 进行 
以 上 操作 的 话 ， 离 从 海量 数据 中 提炼 出 它们 蕴含 的 价值 还 远 远 不 够 ， 本 章 将 向 大 家 讲述 大 数据 提 
炼 价值 的 一 个 关键 步骤 一 一 数据 集成 。 

在 本 章 中 ， 笔 者 将 会 对 什么 是 数据 集成 技术 ， 各 大 公司 对 数据 集成 技术 的 定义 有 什么 区 别 ， 
本 书 将 怎么 定义 数据 集成 技术 ， 数 据 集成 技术 有 什么 用 处 ， 数 据 集成 技术 的 发 展 历程 和 分 类 ， 数 
据 集成 技术 的 研究 现状 以 及 各 大 公司 是 用 什么 工具 如 何 实现 数据 集成 技术 的 ， 在 大 数据 背景 下 的 
数据 集成 技术 又 有 哪些 特点 等 问题 逐一 做 出 解答 。 本 章 将 更 多 地 对 比 各 大 公司 在 数据 集成 技术 方 
面 的 认识 和 实现 ， 并 加 以 分 析 提炼 出 一 个 更 为 普遍 的 思路 介绍 给 读者 ， 在 详细 阅读 本 章 后 ， 希 望 
读者 能 对 数据 集成 技术 有 一 个 清晰 明确 的 认识 。 





数据 集成 技术 介绍 


近 几 十 年 来 ， 科 学 技术 的 迅猛 发 展 和 信息 化 的 推进 ， 使 得 人 类 社会 所 积累 的 数据 量 已 经 超过 
了 过 去 5 000 年 的 总 和 ， 数 据 的 采集 、 存 储 、 处 理 和 传播 的 数量 也 与 日 俱 增 。 企 业 实现 数据 共享 ， 
可 以 使 更 多 的 人 更 充分 地 使 用 已 有 数据 资源 ， 减 少 资料 收集 、 数 据 采 集 等 重复 劳动 和 相应 费用 。 
但 是 , 在 实施 数据 共享 的 过 程 当中 ,由 于 不 同 用 户 提供 的 数据 可 能 来 自 不 同 的 途径 ,其 数据 内 容 、 
数据 格式 和 数据 质量 千差万别 ， 有 时 甚至 会 遇 到 数据 格式 不 能 转换 或 数据 转换 格式 后 丢失 信息 等 
棘手 问题 ， 严 重 阻 碍 了 数据 在 各 部 门 和 各 软件 系统 中 的 流动 与 共享 。 因此， 如 何 对 数据 进行 有 效 
的 集成 管理 已 成 为 增强 企业 商业 竞争 力 的 必然 选择 。 

由 于 现代 企业 的 飞速 发 展 和 企业 逐渐 从 一 个 孤立 节点 发 展 成 为 不 断 与 网 络 交换 信息 和 进行 商 
务 事务 的 实体 , 企业 数据 交换 也 从 企业 内 部 走向 了 企业 之 间 ; 同时 , 数据 的 不 确定 性 和 频繁 变动 ， 
以 及 这 些 集成 系统 在 实现 技术 和 物理 数据 上 的 紧 耦合 关系 ， 导 致 一 旦 应 用 发 生变 化 或 物理 数据 变 
动 ， 整 个 体系 将 不 得 不 随 之 修改 。 因 此 ， 我 们 进行 数据 集成 将 面临 着 如 何 适应 现代 社会 发 展 的 复 
杂 需 求 、 有 效 扩展 应 用 领域 、 分 离 实现 技术 和 应 用 需求 、 充 分 描述 各 种 数据 源 格式 以 及 发 布 和 进 
行 数据 交换 等 问题 。 








实战 大 数据 


就 大 型 企业 和 政府 部 门 的 信息 化 而 言 ， 信 息 系 统 建设 通常 具有 阶段 性 和 分 布 性 的 特点 ， 这 就 
导致 “信息 孤岛 ”现象 的 存在 。“ 信 息 孤 岛 ” 造 成 系统 中 存在 大 量 元 余数 据 、 垃 圾 数据 ， 无 法 保证 
数据 的 一 致 性 ， 从 而 降低 信息 的 利用 效率 和 利用 率 。 为 解决 这 一 问题 ， 人 们 开始 关注 数据 集成 研 
究 。 数 据 集成 的 核心 任务 是 要 将 互相 关联 的 分 布 式 异 构 数据 源 集成 到 一 起 ， 使 用 户 能 够 以 透明 的 
方式 访问 这 些 数据 源 。 集 成 是 指 维护 数据 源 整体 上 的 数据 一 致 性 、 提 高 信息 共享 利用 的 效率 ， 透 
明 的 方式 是 指 用 户 无 需 关心 如 何 实现 对 异 构 数据 源 数据 的 访问 ,只 关心 以 何 种 方式 访问 何 种 数据 。 
实现 数据 集成 的 系统 称 作 数据 集成 系统 〈 如 图 4.1 所 示 )， 它 为 用 户 提供 统一 的 数据 源 访问 接口 ， 
执行 用 户 对 数据 源 的 访问 请 求 。 


人 
:| | 
求 果 
数据 集成 系统 





图 4.1 数据 集成 系统 模型 


数据 集成 是 对 各 种 异 构 数据 提供 统一 的 表示 、 存 储 和 管理 ， 这 些 功能 在 异 构 数据 集成 系统 中 
实现 。 数 据 集成 屏 珊 了 各 种 异 构 数据 间 的 差异 ， 通 过 异 构 数据 集成 系统 进行 统一 操作 。 因 此 集成 
后 的 异 构 数据 对 用 户 来 说 是 统一 的 和 无 差异 的 。 

数据 集成 是 指 将 存放 在 自治 和 异 构 数据 源 中 的 数据 进行 组 合 ， 向 用 户 提 供 一 个 统一 的 全 局 数 
据 模式 。 

- 般 意义 下 的 数据 集成 ， 主 要 指 的 是 数据 库 到 数据 库 中 异 构 数 据 的 转换 ， 这 种 形式 的 数据 集 
成 是 其 他 形式 (API， 方 法 等 ) 集成 的 基础 ， 因 为 企业 应 用 系统 的 基础 是 数据 ， 企 业 应 用 集成 通 
常 是 以 数据 作为 集成 的 起 点 。 一 般 情 况 下 ， 数 据 集成 是 必须 要 实现 的 。 相 对 其 他 应 用 集成 的 形式 
而 言 ， 数 据 集成 是 一 种 简单 、 基 础 的 集成 方式 。 主 要 任务 是 将 数据 在 存储 之 间 进行 转移 ， 在 应 用 
程序 之 间 进 行业 务 信息 的 共享 。 目 前 存在 大 量 的 工具 和 技术 ， 人 允许 从 数据 库 到 数据 库 之 间 的 数据 
集成 与 转换 。 相 对 于 应 用 程序 中 的 逻辑 或 数据 库 结构 ， 对 数据 库 的 访问 和 数据 转换 相对 来 说 比较 
容易 。 

在 EAI 的 环境 下 的 数据 访问 运行 于 应 用 程序 逻辑 和 用 户 接口 之 下 ,可 以 通过 一 个 接口 从 数据 
库 中 提取 或 加 载 数据 。 在 过 去 的 十 几 年 中 ,数据库 通常 与 应 用 程序 和 接口 是 分 离 的 ， 这 样 就 使 得 
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数据 集成 的 难度 降低 。 然 而 ， 许 多 数据 库 与 应 用 程序 的 逻辑 是 紧密 耦合 的 ， 这 样 就 不 能 在 无 视 应 
用 程序 逻辑 的 情况 下 直接 处 理 数 据 库 中 的 数据 。 


数据 集成 技术 研究 现状 


4.2.1 Information Manifold: 具有 统一 的 查询 接口 


1996 年 Alon Halevy、Anand Rajaraman、Joann Ordille 三 人 合 著 的 论文 《Querying Heterogeneous 
Information Sources using Source Descriptions》 发 表 在 VLDB 国际 会 议 上 ，2006 年 被 评 为 VLDB 
十 年 最 佳 论 文 。 作者 在 文中 总 结 了 数据 集成 这 十 几 年 来 的 发 展 成 果 , 在 商业 领域 的 一 些 相 关 产 品 ， 
提出 了 目前 数据 集成 普遍 存在 的 问题 以 及 未 来 面临 的 挑战 ， 同 时 ， 作 者 也 对 数据 集成 领域 中 的 一 
些 重要 思想 和 几 个 热点 问题 进行 了 详细 的 介绍 。 

这 篇 论文 提出 了 一 个 数据 集成 项 目 一 一 Information Manifold，Information Manifold 和 其 他 同 
类 的 项 目 极 大 地 促进 了 数据 集成 的 发 展 ， 并 导致 了 一 系列 数据 集成 系统 商业 产品 的 诞生 。 

Information Manifold 的 目的 是 为 多 数据 源 提 供 一 个 统一 的 查询 接口 。 用 户 通 过 这 个 接口 提交 
查询 可 以 直接 得 到 对 多 个 数据 源 的 查询 结果 ， 就 像 是 对 一 个 数据 源 进行 查询 一 样 。 这 个 观点 深 深 
影响 了 数据 集成 领域 的 发 展 方向 。 

请 看 这 个 查询 的 例子 ， 找 出 由 Woody Allen 导演 的 在 “我 ”所 在 的 地 区 放映 的 电影 的 评论 。 

这 是 一 个 复杂 的 查询 ， 要 回答 这 个 查询 需要 对 三 个 Web 站 点 (相当 于 数据 库 中 的 表 ) 的 内 容 
进行 连接 : 一 个 有 演员 和 导演 信息 的 电影 网 站 ; 一 个 电影 放映 时 间 和 地 点 的 网 站 ， 以 及 一 个 影评 

如 果 用 户 不 得 不 自己 访问 这 三 个 Web 站 点 , 然后 在 三 个 站 点 上 分 别 进行 有 关 信 息 的 查询 (只 
能 查询 该 站 点 的 数据 库 支 持 的 信息 )， 再 自己 手动 把 这 些 信息 连接 起 来 ， 才 能 得 到 所 需 的 信息 , 那 
么 这 种 复杂 度 必定 是 不 可 忍受 的 。 因 此 ， 数 据 集成 研究 工作 的 目标 就 是 设计 出 一 种 合适 的 数据 集 
成 系统 ， 它 能 够 自动 为 用 户 完成 这 些 操作 ， 并 且 在 可 以 接受 的 时 间 内 返回 查询 的 结果 数据 。 至 于 
这 些 结果 信息 是 否 来 自 多 个 自治 而 且 异 构 的 数据 库 、 原 来 的 形式 是 否 各 不 相同 等 问题 ， 都 由 系统 
来 解决 ， 用 户 的 感觉 就 是 对 单一 数据 库 的 简单 查询 。Information Manifold 就 是 在 这 方面 比较 成 功 
的 范例 。 

Information Manifold 对 数据 集成 这 十 年 来 的 发 展 的 主要 贡献 就 是 论文 里 提出 的 对 已 知 的 数 
据 源 内 容 的 描述 方式 ( 称 为 Source Description， 即 源 的 描述 )。 一 个 数据 集成 系统 会 给 它 的 用 户 提 
供 一 种 模式 ， 用 于 用 户 提交 他 们 的 查询 。 其 中 典型 的 代表 就 是 中 介 模 式 〈 或 称 全 局 模式 ，mediated 
schema)。 用 户 提交 的 查询 都 是 基于 这 个 中 介 模 式 的, 因此 数据 集成 系统 必须 预先 建立 好 中 介 模 式 
与 数据 源 模式 之 间 的 语义 映射 (semantic 映射 sS)。 在 这 里 ，Information Manifold 提出 了 一 种 著名 
的 语义 映射 关系 的 构建 方法 ， 后 来 被 称 为 LAV (Local-as-View) 方法 。 有 了 模式 间 的 映射 关系 ， 
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用 户 提 交 的 基于 中 介 模 式 的 查询 通过 查询 重 写 (query refomulation ) 转化 成 对 于 各 数据 源 的 可 执 
行 的 一 系列 查询 。 现 在 多 使 用 LAV 视图 进行 查询 重 写 ， 被 称 为 利用 视图 应 答 查 询 (Answering 
Queries Using Views，AQUV)。 然 后 查询 引擎 再 进行 查询 优化 和 执行 。 形 象 化 描述 如 图 4.2 所 示 。 
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< 
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图 4.2 Information Manifold 方法 架构 


1. 中 介 模 式 /全 局 模式 ( mediated schema ) 

中 介 模 式 是 现在 最 典型 的 数据 集成 方法 ， 它 通过 提供 一 个 统一 的 数据 逻辑 视图 来 隐藏 底层 的 
数据 细节 ， 使 用 户 可 以 把 集成 的 数据 源 看 作 一 个 统一 的 整体 。 

数据 集成 系统 通过 中 介 模 式 将 各 数据 源 的 数据 集成 起 来 , 而 数据 仍 存储 在 各 个 局 部 数据 源 中 ， 
通过 各 数据 源 的 包装 器 (wrapper) 对 数据 进行 转换 使 之 符合 中 介 模 式 。 用 户 的 查询 是 基于 中 介 模 
式 的 ， 不 必 知 道 每 个 数据 源 的 模式 。 中 介 器 (mediator) 将 基于 中 介 模 式 的 一 个 查询 转换 为 基于 
各 局 部 数据 源 模式 的 一 系列 查询 ， 交 给 查询 引擎 做 优化 并 执行 。 对 每 个 数据 源 进行 的 查询 都 会 返 
回 结果 数据 ， 中 介 器 再 对 这 些 数据 做 连接 和 集成 ， 最 后 将 符合 用 户 查 询 要 求 的 信息 返回 给 用 户 。 

使 用 中 介 模 式 的 数据 集成 方法 解决 了 各 数据 源 中 数据 的 更 新 问题 。 因 为 当 底层 数据 源 发 生变 
化 时 ， 只 需要 修改 中 介 模 式 的 虚拟 逻辑 视图 就 可 以 了 ， 大 大 减少 了 数据 集成 系统 的 维护 开销 。 

这 种 方法 也 弥补 了 数据 仓库 方法 的 不 足 ， 数 据 仓库 方法 必须 将 各 数据 源 的 所 有 数据 都 预先 取 
到 一 个 中 心 数据 仓库 里 ， 当 数据 发 生 改 变 时 ， 还 要 到 底层 数据 源 中 再 取 一 次 ， 还 要 更 新 与 这 些 变 
化 了 的 数据 的 相关 的 那些 数据 ， 维 护 开销 太 大 。 


2. 语义 映射 (semantic 映射 ) 


这 里 指 的 是 一 种 能 够 描述 中 介 模 式 和 数据 源 模式 之 间 的 语义 关系 的 映射 ， 它 把 多 个 数据 源 的 
模式 通过 映射 关系 集成 到 中 介 模 式 上 。 
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这 种 映射 关系 就 是 前 面 提 到 的 Source Description 的 主要 组 成 部 分 。 

目前 , 数据 集成 领域 关于 模式 间 映 射 关系 构建 的 基本 方法 主要 有 两 种 :GAV (Global-as-View) 
方法 和 LAV (Local-as-View) 方法 。 

GAV 方法 是 将 各 本 地 数据 源 的 局 部 视图 映射 到 全 局 视图 , 即 全 局 模式 被 描述 为 源 模式 上 的 一 
组 视图 。 用 户 查询 直接 作用 于 定义 在 数据 源 模式 上 的 全 局 视图 。GAYV 方法 的 优点 是 查询 效率 比较 
高 , 缺点 是 用 这 种 方法 构建 出 来 的 映射 关系 的 可 扩展 性 较 差 , 不 适合 数据 源 存 在 动态 变化 的 情况 。 
因为 一 旦 有 任何 一 个 局 部 数据 源 发 生 改变 ， 全 局 视图 都 必须 进行 修改 ， 维 护 起 来 较 困 难 ， 开 销 也 
比较 大 。GAV 是 较 早 提出 的 方法 。 

Information Manifold 提出 了 一 种 新 的 、 更 适合 数据 源 特点 的 语义 映射 关系 构建 方法 ， 即 LAV 
方法 。LAV 方法 是 将 全 局 视图 映射 到 各 数据 源 上 的 本 地 局 部 视图 ， 即 各 数据 源 模式 被 描述 为 全 局 
模式 上 的 视图 。 当 用 户 提交 某 个 查询 时 , 中 介 系 统 通 过 整合 不 同 的 数据 源 视图 决定 如 何 应 答 查询 。 
这 种 方法 可 看 作 利 用 视图 回答 查询 。 该 方法 的 优点 是 映射 关系 的 可 扩展 性 好 ， 适 合 于 信息 源 变 化 
比较 大 的 情况 ， 缺 点 是 可 能 会 造成 “信息 遗失 ” 信息 查询 效率 低 。 

LAV 方法 有 如 下 两 个 显而易见 的 好 处 : 


e@ 第 一 ， 描 述 数据 源 变 得 更 简单 容易 了 。 描 述 ( 即 视图 ) 只 用 描述 本 地 数据 库 就 可 以 了 ， 不 
必 再 描述 用 户 查 询 需 要 涉及 的 其 他 的 数据 源 和 各 数据 源 之 间 的 关系 。 由 于 有 这 种 特性 ， 当 
有 新 的 数据 源 要 加 入 进来 时 ， 数 据 集成 系统 可 以 非常 容易 地 适应 ， 因 为 每 个 视图 仅 描述 这 
个 数据 库 的 内 容 。 在 实际 应 用 的 数据 集成 系统 中 ， 往 往 要 涉及 成 百 上 千 个 数据 源 ， 而 且 经 
常 需要 去 除 旧 的 不 用 的 数据 源 ， 加 入 新 的 源 ， 再 做 集成 ， 所 以 这 个 容易 更 新 再 集成 的 特性 
是 极其 重要 的 ， 所 以 LAV 方法 是 现在 最 流行 的 数据 集成 方法 。 

e@ 第 二 ， 对 数据 源 的 描述 更 加 精确 了 。 因 为 源 的 描述 (Source Description ) 在 视图 定义 语言 
的 表达 能 力 中 起 着 最 关键 的 作用 , 因为 系统 能 够 选取 一 个 最 小 数量 的 数据 源 集合 来 回答 一 
个 特定 的 查询 ， 所 以 比较 节省 时 间 和 系统 开销 。 

目前 兴起 的 GLAV (Global-Local-as-View ) 映射 方法 是 一 种 GAV 和 LAV 方法 相 结合 的 产物 ， 


它 是 由 全 局 模式 上 的 视图 与 各 数据 源 上 的 视图 相 结 合 形成 的 。GLAYV 方法 可 以 结合 GAV 和 LAV 
的 优势 ， 能 够 为 数据 集成 系统 提供 更 具 表达 能 力 的 语义 映射 。 





3. 查询 重 写 ( Query Reformulation ) 


数据 集成 系统 为 多 数据 源 提供 统一 的 接口 , 利用 视图 描述 一 个 自治 的 、 异 构 的 数据 源 的 集合 。 
用 户 基于 中 介 模 式 提交 一 个 查询 ， 数 据 集成 系统 通过 源 模式 与 中 介 模 式 之 间 的 映射 关系 将 该 查询 
重 写 为 数据 源 可 接受 的 语法 形式 传 给 数据 源 ， 在 随后 的 阶段 基于 数据 源 的 查询 被 优化 并 执行 。 

4. 利用 视图 应 答 查询 ( Answering Queries Using Views ,简称 AQUYV ) 


AQUYV 也 被 称 为 利用 视图 重 写 查 询 (Rewriting Queries Using Views )， 即 给 定 一 个 数据 库 模式 
上 的 查询 Q， 和 同一 数据 库 模式 上 的 视图 定义 集 V={V1，V2，…，Vn}， 能 否 仅 使 用 视图 V1， 
V2，…，Vn 获得 对 查询 Q 的 应 答 。 
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在 使 用 LAV 方法 构建 映射 关系 的 数据 集成 系统 中 , 各 数据 源 模式 是 全 局 模式 上 的 视图 , 数据 
源 的 内 容 由 在 中 介 模 式 上 的 视图 来 描述 。 因 此 可 以 将 数据 源 看 成 是 物化 的 视图 (Materialized 
Views)， 将 视图 定义 看 成 是 数据 源 描述 (Source Description)。 从 而 将 在 中 介 模 式 上 构造 的 用 户 查 
询 ， 重 写 为 一 系列 的 直接 基于 各 数据 源 模式 的 查询 ， 这 就 是 利用 视图 应 答 查询 问题 。 
有 时 候 不 一 定 能 得 到 与 用 户 查询 等 价 的 重 写 查询 ， 原 因 是 物化 视图 越 来 越 多 ， 想 全 部 覆盖 这 
些 视 图 是 很 困难 的 。 在 有 些 情况 下 ， 作 为 近似 ， 可 以 找到 最 大 包含 集 ， 它 提供 可 用 数据 源 上 可 能 
的 最 佳 结 果 集 。 

因此 查询 重 写 分 为 两 种 类 型 : 


@ 相等 的 查询 重 写 : 重 写 的 查询 与 原 查询 有 相同 的 结果 集 ， 可 以 理解 为 等 价 的 查询 重 写 ; 
e 最 大 包含 的 查询 重 写 : 重 写 的 查询 是 原 查 询 的 最 大 子 集 。 








4.2.2 ”数据 集成 系统 的 发 展 建设 


1. 模式 间 映 射 关 系 的 生成 


模式 和 模式 间 的 语义 映射 关系 是 数据 集成 系统 的 构建 基础 。 

现在 ， 建 立 Source Description 已 经 迅速 成 为 开发 实际 应 用 的 数据 集成 系统 的 最 主要 的 瓶颈 。 
更 准确 地 说 ， 瓶 颈 是 建立 源 模式 与 中 介 模 式 之 间 的 语义 映射 关系 。 要 创建 这 样 的 映射 关系 并 且 维 
护 它们 ， 需 要 专门 的 数据 库 专家 来 完成 ， 而 且 ， 他 们 还 必须 同时 具备 丰富 的 商业 知识 ， 才 能 够 理 
解 需要 进行 匹配 的 模式 所 具有 的 意义 。 对 于 企业 来 说 ， 聘 请 这 样 的 专门 人 才 来 建立 和 维护 数据 库 
的 横 式 匹配 关系 ， 代 价 肯定 是 比较 大 的 。 

有 需求 就 有 发 展 的 动力 。 这 促成 了 数据 集成 研究 领域 里 的 一 个 相当 重要 的 分 支 : 半自动 化 生 
成 模式 映射 关系 。 一 般 来 说 ， 完 全 自动 地 生成 映射 关系 是 一 个 几乎 不 可 能 完成 的 问题 ， 因 此 研究 
努力 的 方向 应 该 是 创造 出 能 够 加 速 映射 的 生成 并 且 尽 可 能 减少 人 工 干预 的 工具 。 

在 自动 化 生成 模式 匹配 的 研究 领域 中 ， 现 有 的 工作 都 是 基于 这 样 的 思想 : 第 一 ， 用 于 建立 模 
式 之 间 的 匹配 的 技术 都 基于 那些 模式 本 身 所 包含 的 线索 ， 比 如 模式 元 素 与 数据 值 或 属性 值 在 语言 
上 的 相似 性 与 重合 性 。 第 二 ， 据 观察 ， 这 些 方法 没有 一 个 是 十 分 简单 的 ， 以 后 的 数据 集成 系统 的 
发 展 趋势 必然 是 联合 这 一 系列 单独 的 技术 ， 来 创建 模式 之 间 的 映射 关系 ， 才 能 达到 比较 良好 的 效 
果 。 第 三 ， 一 个 重要 的 观察 结果 是 ， 模 式 匹配 的 创建 工作 常常 具有 很 大 的 重复 性 。 例 如 ， 在 做 数 
据 集成 时 ， 我 们 建立 同一 个 域 上 的 多 个 模式 到 同一 个 中 介 模 式 的 映射 关系 。 因 此 ， 可 以 使 用 机 器 
学 习 算法 ， 这 种 方法 是 : 先 人 工 建 立 一 个 初步 的 模式 映射 关系 ， 作 为 训练 数据 ， 然 后 对 这 些 映 射 
做 归纳 ， 预 言 产 生出 其 他 那些 未 知 的 模式 间 的 映射 关系 〈 见 图 4.3)。 这 些 技术 今天 已 经 在 商业 领 
域 中 使 用 ， 并 且 带 来 了 重要 的 商业 价值 。 
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要 中 介 模式 go 
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图 43 中介 模式 : 基于 机 器 学 习 的 方法 

















2. 适应 性 查询 处 理 

- 旦 一 个 被 提交 给 中 介 模 式 的 查询 被 重 写 为 一 系列 的 面向 各 个 数据 源 的 查询 ， 这 些 查 询 就 需 
要 被 有 效率 地 执行 。 尽 管 分 布 式 数据 管理 中 有 许多 技术 在 这 里 都 很 适用 ， 但 又 有 一 些 新 的 挑战 出 
现 了 ， 主 要 是 由 于 数据 集成 系统 中 的 信息 的 动态 特性 决定 的 。 

数据 集成 系统 与 传统 的 数据 库 系统 不 同 ， 它 的 各 个 数据 源 具 有 自治 性 和 异 构 性 ， 各 个 数据 源 
数据 的 可 访问 性 以 及 传输 速度 是 经 常 变 化 和 不 可 预测 的 ， 执 行 引擎 没有 足够 的 信息 来 制定 出 一 个 
好 的 查询 计划 。 因 此 传统 的 停止 -进行 方式 的 查询 处 理 不 能 很 好 地 处 理 数据 集成 系统 的 查询 。 而 能 
够 在 查询 执行 过 程 中 动态 调整 查询 计划 的 适应 性 查询 处 理 是 针对 此 类 应 用 的 最 佳 选择 。 适 应 性 查 
询 处 理 逐 渐 成 为 一 项 重要 的 技术 。 

3. XML 

我 们 不 能 忽视 XML 在 过 去 十 年 的 数据 集成 发 展 史上 所 起 的 重要 作用 。 

如 今 的 Web 数据 库 实质 上 就 是 一 个 巨大 的 异 构 数据 库 的 集合 , 怎样 为 大 量 异 构 的 数据 提供 某 
种 统一 的 表示 方法 无 疑 是 数据 集成 研究 领域 中 的 重要 问题 。 这 就 要 求 我 们 找到 一 种 标准 的 、 开 放 
的 数据 结构 来 表示 数据 。 而 XML 的 出 现 无 疑 为 异 构 数据 源 的 集成 带 来 了 新 的 希望 。 

XML 是 互联 网 联合 组 织 〈W3C) 设计 并 推荐 的 新 一 代 可 扩展 标记 语言 ， 它 是 SGML 的 一 个 
优化 子 集 。 它 以 一 种 开放 的 自我 描述 方式 定义 数据 结构 ， 在 描述 数据 内 容 的 同时 能 突出 对 结构 的 
描述 ， 从 而 体现 出 数据 之 间 的 关系 。 XML 是 一 种 半 结 构 化 的 数据 模型 ， 它 的 很 多 特性 使 得 它 可 以 
描述 不 规则 的 数据 ， 能 够 集成 来 自 不 同 数据 源 的 数据 ， 可 以 将 多 个 应 用 程序 所 生成 的 数据 纳入 同 
一 个 XML 文件 。 

实际 上 ，XML 没有 解决 任何 语义 集成 的 问题 ， 那 些 数据 源 共享 XML 文件 ， 然 而 这 些 文件 的 
标签 在 这 种 应 用 之 外 就 是 毫 无 意义 的 。 可 是 ， 用 户 看 起 来 的 效果 是 好 像 这 些 数据 源 里 的 数据 真 的 
被 共享 了 一 样 ， 而 且 用 户 的 操作 也 像 是 在 一 个 真正 的 、 数 据 共享 的 数据 集成 系统 中 进行 的 一 样 。 
现在 XML 对 数据 集成 研究 的 推动 力 越 来 越 重要 了 。 

如 果 没 有 XML, 集成 系统 就 必须 了 解 每 个 数据 库 描述 数据 的 模式 和 规则 , 这 几乎 是 不 可 能 实 
现 的 。Web 数据 源 中 的 数据 表示 形式 的 不 同 几乎 是 无 穷 无 尽 的 ，XML 能 够 使 不 同 来 源 的 结构 化 
的 数据 很 容易 地 结合 在 一 起 。 

从 技术 的 角度 来 看 ， 目 前 一 些 数据 集成 系统 已 经 使 用 了 XML 作为 它 的 基本 数据 模型 ， 并 且 
用 XML 查询 语言 (XQuery) 作为 数据 库 查 询 语 言 。 要 维护 和 支持 这 样 的 系统 ， 数 据 集成 系统 的 
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每 一 个 方面 都 需要 被 扩展 ， 使 之 具有 支持 和 处 理 XML 的 能 力 。 
主要 的 挑战 是 XML 的 嵌 套 特性 ， 而 且 XML 是 半 结 构 化 的 语言 。 


4. P2P 数据 管理 


点 对 点 〈Peerto-Peer) 文件 共享 系统 的 兴起 ， 鼓 舞 了 数据 管理 研究 领域 对 P2P 结构 实现 数据 
共享 的 兴趣 。 除 了 P2P 模式 的 常规 要 求 以 外 ,研究 者 们 还 提供 了 P2P 在 数据 集成 环境 下 的 两 种 附 
加 的 优点 。 

第 一 ， 在 实际 应 用 中 ， 几 个 不 同 的 组 织 要 求 共享 数据 ， 这 种 情况 经 常 发 生 。 但 是 这 些 组 织 中 
却 没有 一 个 想 要 担负 起 创建 一 个 中 介 模 式 、 维 护 它 ， 并 且 为 它 建 立 和 那些 数据 源 模式 之 间 的 映射 
关系 的 责任 。 这 怎么 办 呢 ? P2P 结构 为 我 们 提供 了 一 个 非常 好 的 解决 办 法 。P2P 结构 提供 的 是 一 
种 真正 的 分 布 式 管理 共享 数据 的 模式 ， 每 一 个 数据 源 仅 仅 需要 提供 它 自己 与 它 周 围 一 系列 邻居 数 
据 源 的 语义 映射 关系 ,其 他 更 复杂 的 集成 是 系统 依循 着 网 络 中 的 语义 路 (Semantic Paths) 形成 的 。 
源 的 描述 (Source Description) 提供 了 研究 P2P 结构 下 的 模式 及 其 映射 的 建立 的 基础 。 

第 二 ， 设 计 一 个 单独 的 中 介 模 式 为 一 个 数据 集成 系统 服务 ， 有 时 候 会 比较 难 ， 而 且 一 个 单独 
的 中 介 模 式 又 比较 难以 将 系统 中 全 部 的 语义 关系 都 表示 清楚 。 请 考虑 一 个 科研 合作 环境 下 的 数据 
共享 问题 ， 需 要 被 共享 的 数据 可 能 包括 来 自 不 同 大 学 的 科研 成 果 ， 不 同 书籍 上 的 信息 ， 等 等 。 数 
据 的 多 样 性 和 异 构 性 ， 以 及 合作 团体 对 于 共享 这 些 数据 的 需要 ， 都 是 非常 多 样 而 且 经 常 变化 的 ， 
这 些 特性 对 于 一 个 单独 的 中 介 模 式 来 说 ， 都 是 极其 难以 管理 的 。 但 是 P2P 模式 就 不 同 了 ， 在 这 种 
结构 下 ， 没 有 一 个 单独 的 全 局 的 中 介 模 式 ， 数 据 的 共享 只 发 生 在 网 络 上 这 个 数据 源 的 邻居 数据 源 
之 间 。 

图 4.4 所 示 为 P2P 模式 的 一 个 形象 化 示意 。 








4.4 P2P 数据 管理 示意 


146 


第 4 章 数据 集成 
5. 人 工 智能 的 重要 作用 


数据 集成 在 人 工 智能 (AI) 的 领域 里 也 是 一 个 非常 活跃 的 研究 课题 。 在 早期 ， 数 据 集成 在 人 
工 智 能 领域 的 应 用 被 称 为 描述 逻辑 (Description Logics)， 它 是 知识 表示 的 一 个 分 支 ， 能 够 描述 数 
据 源 之 间 的 关系 。Information Manifold 系统 的 中 介 模 式 就 是 基于 典型 的 描述 逻辑 ， 它 把 描述 逻辑 
的 表达 能 力 同 数据 库 查 询 语言 联合 起 来 了 。 描 述 逻 辑 为 中 介 模 式 的 表示 ， 还 为 语义 查询 的 优化 提 
供 了 更 加 灵活 的 机 制 。 

机 器 学 习 在 为 数据 集成 系统 半自动 化 地 建立 语义 映射 这 个 领域 扮演 了 一 个 非常 重要 的 角色 。 
可 以 预言 ， 未 来 机 器 学 习 将 会 对 数据 集成 有 着 越 来 越 重 要 的 影响 。 


4.2.3 ”企业 信息 集成 


20 世纪 90 年 代 末 开始 ， 数 据 集成 从 实验 室 里 面 “ 走 ”了 出 来 ， 进 入 到 了 商业 化 领域 中 ， 成 
为 现代 化 企业 信息 管理 必 不 可 少 的 应 用 技术 。 今 天 ， 这 种 工业 被 称 为 企业 信息 集成 〈Enterprise 
Information Integration, EII)。 

现代 企业 对 于 数据 集成 的 需求 日 益 增 长 ， 试 图 找到 一 种 用 单一 系统 对 企业 的 所 有 信息 资产 实 
现 集成 和 管理 的 解决 方案 ， 从 而 达到 有 效 地 集成 企业 信息 ， 对 多 个 数据 库 统 一 管理 的 目的 。 

EI 工 具 的 出 现 解决 了 数据 管理 领域 的 一 个 非常 让 人 头痛 的 问题 一 一 从 多 个 数据 源 提取 数据 。 
它 的 根本 思想 是 : 为 来 自 多 个 不 同 数据 源 的 信息 提供 集成 工具 ， 这 种 工具 无 需 首先 把 所 有 的 数据 
从 网 上 下 载 到 本 地 的 数据 仓库 里 。 这 正 是 EII 工具 的 优越 和 先进 之 处 。 

EII 系统 中 ， 数 据 是 “ 随 需 应 变 ” 地 抽取 。 查 询 经 过 优化 、 分 段 又 被 返回 所 有 的 数据 源 ， 而 
结果 则 被 放 入 到 数据 源 的 虚拟 视图 ,“ 虚 拟 ” 是 从 数据 通常 都 是 驻 留 在 数据 源 的 意义 上 来 说 的 。 
EI 工具 是 “访问 ”而 不 是 “移动 ”数据 。 这 就 从 根本 上 简化 了 分 布 数据 的 访问 和 集成 。 

和 任何 新 兴 的 产业 一 样 ，EI 也 面临 着 许多 挑战 ， 下 面 是 具有 代表 性 的 一 些 。 

1. 水 平 vs 垂直 

从 商业 角度 来 看 ，EII 公司 必须 决定 是 要 建造 一 个 能 在 任何 应 用 环境 下 使 用 的 水 平平 台 ， 还 
是 为 某 一 个 特殊 的 垂直 方向 制造 特定 的 工具 。 这 就 是 EII 发 展 中 的 水 平 vs. 垂 直 〈Horizontal vs. 
Vertical) 问题 。 

®。 垂直 方法 的 观点 是 : 用 户 更 关心 他 们 的 全 部 问题 能 否 都 被 解决 ， 因 此 在 解决 方法 中 必定 有 

一 个 “纵深 ”方向 很 适合 解决 某 个 用 户 的 问题 ， 所 以 我 们 要 向 下 深入 研究 这 个 方面 ， 不必 
特别 关心 解决 方法 中 的 其 他 方面 ， 以 及 它 与 解决 方法 的 其 他 方面 的 整合 。 

日 水 平方 法 的 观点 是 : 系统 的 一 般 性 使 人 很 难 断定 哪 一 个 “垂直 ”的 方向 是 我 们 在 解决 方法 

里 要 特别 关注 的 。 所 以 建立 一 个 通用 性 较 好 的 “水 平 ” 平 台 更 重要 。 


对 于 一 个 新 建立 的 公司 来 说 ， 这 是 一 个 在 现 有 资源 不 足 的 情况 下 如 何 区 分 建设 的 优先 次 序 的 
热点 问题 。 
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2. 和 EAI 工具 以 及 其 他 一 些 中 间 件 的 整合 


数据 管理 的 中 间 件 产品 是 一 个 非常 复杂 的 问题 ，EII 工具 的 出 现 又 把 这 种 复杂 度 加 剧 了 。 一 
个 更 为 成 熟 的 工具 是 企业 应 用 集成 (Enterprise Application Integration，EAI)， 它 可 以 通过 中 间 件 
作为 粘 合剂 来 连接 企业 内 外 各 种 业务 相关 的 异 构 系 统 、 应 用 以 及 数据 源 。 

EAI 的 核心 就 是 使 用 中 间 件 连接 企业 应 用 ， 使 应 用 更 加 便利 ，EII 则 更 关注 于 集成 数据 和 查 
询 。 然 而 ， 从 某 种 意义 上 来 说 ， 数 据 是 为 了 应 用 服务 的 ， 查 询 得 到 的 数据 是 要 放 入 到 其 他 的 数据 
源 中 。 事 实 上 ， 要 查询 数据 ， 最 好 使 用 EII 工具 ; 但 是 若 要 更 新 数据 ， 那 么 就 必须 求助 于 EAI 工 
具 。 因此, EII 和 EAI 工具 的 分 离 也 许 只 是 一 个 暂时 性 的 问题 。 其 他 的 产品 包括 数据 清洗 工具 ( data 
cleaning tools) 和 记录 分 析 工 具 (reporting and analysis tools)， 这 些 工具 与 EII 和 EAI 的 结合 将 会 
有 重大 的 进步 。 

尽管 面临 着 这 些 挑战 ， 还 有 激烈 的 竞争 和 因特网 泡沫 破裂 后 极其 困难 的 商业 环境 ，EII 产业 
仍然 存活 了 下 来 ， 今 天 它 已 经 成 为 现代 企业 的 一 项 不 可 缺少 的 技术 。 

除 企业 市 场 之 外 ， 数 据 集成 在 因特网 搜索 研究 领域 里 也 扮演 着 相当 重要 的 角色 。 到 2006 年 ， 
大 型 的 搜索 公司 (比如 Google) 在 集成 来 自 Web 上 的 多 个 数据 源 中 的 信息 方面 ， 取 得 了 一 定 的 
进步 。 在 这 里 ， 源 的 描述 〈Source Description) 起 了 至 关 重 要 的 作用 : 因为 给 无 关 数 据 源 发 送 的 
巨大 的 查询 量 的 开销 是 非常 高 的 。 因 此 数据 源 必须 要 被 尽 可 能 精确 地 描述 .而 且 , 垂直 搜索 (vertical 
search) 关 注 于 创造 特殊 的 搜索 引擎 , 集成 来 自 于 某 一 特定 领域 (如 旅行 、 工 作 等 ) 的 多 个 Deep Web 
数据 源 上 的 数据 。 垂 直 搜索 引擎 产生 于 Web 的 早期 (比如 Junglee and Netbot 公司 )。 这 些 搜索 引 
擎 中 也 包含 了 复杂 的 源 描述 。 











4.2.4 未 来 的 挑战 
儿 个 基本 因素 决定 了 数据 集成 研究 将 面临 着 长 期 的 挑战。 


e@ 第 一 个 因素 是 社会 性 的 。 数据 集成 的 本 质 是 人 们 合作 和 共享 数据 的 问题 。 它 包括 找到 合适 
的 数据 ,使 数据 集成 系统 的 用 户 相 信 这 些 数据 的 来 源 、 正确 性 和 安全 性 ,并 愿意 共享 它们 。 
(这 需要 考虑 到 用 户 的 想法 ， 他 们 愿意 共享 这 些 数据 可 能 是 因为 共享 数据 的 便利 性 或 是 应 
用 结果 带 来 的 好 处 。 ) 还 要 使 数据 的 拥有 者 相信 ， 他 们 所 有 的 关于 共享 数据 的 担心 ， 包 括 
私密 性 、 系 统 的 查询 性 能 表现 等 ， 都 会 被 受 善 解决 。 

@ 第 二 个 因素 是 集成 的 复杂 性 。 在 很 多 应 用 环境 下 ， 人 们 并 不 清楚 “数据 集成 ”的 意义 是 什 
么 ， 也 不 知道 如 何 对 已 经 联合 在 一 起 的 一 扒 数据 进行 操作 。 数 据 管理 系统 的 设计 者 必须 考 
虑 到 这 种 情况 : 用 户 的 要 求 有 时 可 能 会 导致 这 种 预料 不 到 的 数据 集成 的 复杂 性 。 系统 必须 
能 够 适应 这 种 状况 。 


由 于 以 上 这 些 原因 ， 数 据 集成 被 认为 是 一 个 和 人 工 智能 一 样 难 的 问题 ， 甚 至 更 难 。 因 此 ， 研 
究 者 们 的 目标 应 该 是 以 多 种 方案 、 不 同 角度 创造 能 够 使 数据 集成 变 得 更 加 便利 的 工具 。 
以 下 是 几 个 目前 比较 流行 的 数据 集成 领域 的 创新 与 挑战 。 
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1. 数据 空间 ( DataSpaces ) : Pay-as-you-go 的 数据 管理 模式 

现在 的 数据 库 系 统 和 数据 集成 系统 的 一 个 基本 的 缺点 是 : 需要 很 长 的 建立 时 间 。 创 建 一 个 数 
据 库 系统 ， 必 须 首先 建立 一 个 模式 ， 然 后 向 数据 库 中 增添 元 组 。 等 这 些 工 作 都 完成 以 后 ， 才 能 够 
给 用 户 提供 查询 服务 。 创 建 一 个 数据 集成 系统 ， 需 要 预先 建立 中 介 模 式 到 数据 源 模 式 之 间 的 语义 
关系 ， 才 能 看 得 到 数据 源 中 的 内 容 。 近 年 来 ， 一 种 新 的 数据 管理 模式 一 一 数据 空间 出 现 了 ， 它 强 
调 的 是 一 种 pay-as-you-go 的 数据 管理 模式 : 不 需要 任何 的 建立 时 间 就 能 够 给 用 户 提供 服务 。 随 着 
时 间 的 推移 ， 用 户 的 需求 不 断 增加 ， 数 据 空 间 系 统 “ 增 量 式 ”地 添加 服务 的 内 容 ， 改 进 服务 的 质 
量 ， 这 个 过 程 也 是 数据 不 断 被 集成 的 过 程 。 因 此 数据 空间 并 不 像 数 据 集成 系统 那样 ， 先 把 数据 集 
成 好 了 ， 再 给 用 户 提供 服务 ， 而 是 “ 随 需 要 随 集成 ”的 方法 ， 即 上 面 提 到 的 pay-as-you-go 方式 ， 
如 图 4.5 所 示 。 





Pay-as-you-go Data Management 


Wauag 


Dataspaces ee 





Data intesration solutions ! 





Investment (time, cost) 


图 4.5 ” 随 需 数据 管理 方案 


在 数据 空间 的 最 早期 ， 只 能 提供 一 些 最 基本 的 〈 如 数据 源 上 的 关键 字 查询 之 类 ) 功能 。 数 据 
空间 使 用 一 系列 启发 式 的 抽取 规则 ， 从 本 来 完全 互 异 的 、 毫 无 联系 的 数据 项 中 析 取 出 它们 之 间 的 
关系 ， 使 用 路 径 查 询 方 法 建立 这 些 关 联 。 最 终 ， 当 两 个 数据 源 之 间 确 实 需要 更 紧密 的 集成 时 ， 数 
据 空间 就 可 以 自动 创建 两 者 之 间 的 映射 。 接 下 来 的 事情 就 是 让 人 去 修改 并 维护 它 了 。 


2. 不 确定 性 与 数据 血统 ( Uncertainty and lineage ) 


在 数据 集成 研究 领域 ， 不 确定 数据 的 操作 和 数据 血统 的 问题 有 很 长 的 历史 。 如 果 说 管理 不 确 
定性 数据 和 数据 血统 在 传统 数据 库 系 统 中 似乎 只 是 一 个 好 的 特点 ， 那 么 在 数据 集成 系统 中 它 就 是 
一 个 必须 具备 的 功能 了 。 一 般 情 况 下 ， 来 自 于 多 个 数据 源 的 数据 都 是 不 确定 性 的 数据 ， 它 们 彼此 
的 形式 都 不 一 致 。 系 统 必须 能 够 找 出 这 些 看 似 乱七八糟 的 数据 中 内 在 的 联系 和 确定 性 。 当 系统 不 
能 自动 找 出 这 种 确定 性 的 时 候 ,， 可 以 交 由 用 户 来 考虑 一 下 数据 的 血统 (也 叫 数据 沿袭), 搜索 引擎 
沿 着 用 户 的 搜索 过 程 把 这 些 URL 都 提供 给 用 户 ， 因 此 用 户 能 够 通过 分 析 URL 理 清 数 据 的 脉络 ， 
决定 哪个 搜索 结果 更 值得 深入 探寻 下 去 。 通 过 对 数据 血统 的 分 析 ， 用 户 可 以 知道 数据 何 时 更 新 、 
如 何 计算 以 及 从 何 处 而 来 ， 这 些 帮助 用 户 追 溯 数 据 产生 的 来 源 。 这 种 深入 洞察 数据 来 龙 去 脉 的 能 
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ED 

力 能 够 帮助 用 户 断 定 哪个 数据 源 是 可 信赖 的 。 

3. 重新 使 用 人 们 的 关注 点 ( Reusing human attention ) 

若 要 在 数据 源 上 做 更 加 紧密 的 语义 集成 , 一 个 重要 的 原则 就 是 : 要 重新 利用 用 户 的 关注 信息 。 
一 个 简单 而 明显 的 例子 就 是 ， 每 一 次 用 户 使 用 数据 空间 系统 进行 查询 ， 数 据 空间 都 能 从 中 得 到 一 
条 用 户 关注 信息 的 语义 线索 。 这 样 的 线索 可 以 从 用 户 查询 数据 源 时 得 到 。 若 用户 建 立 语义 映射 ， 
或 者 剪 切 数据 ， 再 把 它 粘贴 到 另 一 个 地 方 ， 这 些 操作 都 能 给 系统 提供 很 多 用 户 关注 点 的 信息 。 如 
果 能 够 建立 一 个 支持 这 些 语义 线索 的 系统 ， 那 么 语义 集成 将 会 变 得 非常 快 。 目 前 已 经 有 了 一 些 重 
用 用 户 关注 信息 的 成 功 案例 。 


数据 集成 技术 的 实现 与 工具 


4.3.1 _ Oracle Data Integrator (ODI) 简介 


ODI 的 前 身 是 Sunopsis 公司 的 Sunopsis Active Integration Platform， 被 Oracle 公司 于 2006 年 
10 月 收购 ， 同 时 命名 为 Oracle Data Integrator。ODI 体系 结构 内 含 多 个 组 件 ， 主要 围绕 一 种 模块 化 
存储 库 进 行 组 织 。 组 件 主 要 有 图 形 模块 、 运 行 时 组 件 、 存 储 库 及 Metadata Navigator 等 。 

Oracle Data Integrator 在 多 项 组 件 上 得 到 构建 ， 且 这 些 组 件 围绕 同一 集中 式 元 数据 库 共同 工 
作 。 图 形 模块 、 运 行 时 组 件 以 及 Web 界面 ， 通 过 与 其 他 高 级 特性 的 结合 ， 使 Oracle Data Integrator 
成 为 一 种 代表 当前 最 先进 技术 水 平 、 非 传统 性 〈Legacy-free) 的 轻 量 级 集成 平台 。 

Oracle Data Integrator 体系 结构 的 组 织 主要 是 围绕 一 种 模块 化 存储 库 展 开 ， 通 过 完全 在 Java 
中 编写 的 图 形 模块 和 执行 代理 〈 程 序 )、 以 客户 服务 器 模式 对 该 存储 库 进 行 访 问 。 该 体系 结构 还 包 
括 Web 应 用 以 及 Metadata Navigator， 它 们 可 以 使 用 户 通 过 Web 界面 访问 信息 。 

1. 图 形 模块 

ODI 中 共 拥 有 4 种 图 形 化 用 户 模块 ， 分 别 是 ， 设计 器 (Designer)、 操 作 器 〈Operator)、 拓 扑 
管理 器 (Topology Manager) 和 安全 管理 器 (Security Manager)， 如 图 4.6 所 示 。 这 4 种 模块 可 以 
被 安装 在 所 有 支持 Java Virtual Machine 1.5 (J2SE), 包括 Windows、Linux、HP-UX、Solaris、AIX 
以 及 Mac OS 在 内 的 图 形 平台 上 。 
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Ce Ce ) ee) Ge) 











图 4.6 ODI 中 4 种 图 形 模型 


(1) 设计 器 (Designer) 
这 个 工具 能 够 让 用 户 为 数据 转换 和 数据 完整 性 定义 声明 式 规则 。 此 外 ， 我 们 能 够 看 到 ， 数 据 
库 和 应 用 系统 的 元 数据 能 够 在 此 模块 中 被 导入 和 定义 。 设 计 器 模块 使 用 元 数据 和 规则 为 实际 的 生 
产 环 境 生成 方案 。 所 有 项 目的 开发 都 可 以 通过 这 个 界面 完成 ， 并 且 它 还 是 开发 人 员 和 元 数据 管理 
员 在 设计 阶段 的 主要 用 户 工具 。 


(2) 操作 器 (Operator) 

用 户 可 以 利用 操作 器 在 生产 环境 中 负责 管理 和 监控 运行 工作 。 它 的 主要 使 用 者 是 生产 环境 的 
操作 者 ， 能 够 显示 执行 日 志 ， 包 括 错误 记录 、 被 处 理 的 行 数 、 执 行 的 统计 信息 和 被 执行 的 实际 代 
码 等 。 开 发 人 员 在 设计 阶段 也 可 以 通过 Operator 模块 进行 调试 应 用 ，Operator 已 成 为 运行 阶段 的 
核心 工具 。 


(3) 拓扑 管理 器 (Topology Manager) 

用 户 利用 Topology Manager 工具 来 定义 基础 架构 的 物理 和 逻辑 体系 结构 。 通 过 该 模块 ， 使 服 
务 器 、 方 案 和 代理 (程序) 被 注册 在 Oracle Data Integrator 主 数据 库 中 。 它 主要 由 基础 架构 负责 人 
或 项 目 管理 员 使 用 并 执行 相关 工作 。 

(4) 安全 管理 器 (Security Manager) 

安全 管理 器 的 主要 使 用 者 是 安全 管理 员 。 它 能 够 让 管理 员 对 用 户 的 账户 密码 及 访问 权限 等 进 
行 有 效 管 理 ， 还 可 以 给 Oracle Data Integrator 对 象 和 功能 分 配 相关 的 属性 信息 和 用 户 访问 权限 。 

以 上 4 种 模块 均 在 集中 式 存 储 库 中 进行 信息 存储 。 

2. 运行 时 组 件 

在 运行 时 ，Scheduler Agent 负责 协调 场景 的 执行 。 它 也 可 以 被 安装 在 所 有 支持 Java Virtual 
Machine (J2SE) 的 平台 上 。 其 作用 仅仅 是 完成 从 执行 存储 库 中 获得 代码 ， 然 后 向 数据 库 服务 器 、 
操作 系统 或 脚本 引擎 发 出 执行 该 代码 的 请 求 工 作 。 执 行 完 成 后 ，Scheduler Agent 开始 更 新 数据 库 
中 的 执行 日 志 , 如 出 现 错误 可 以 及 时 报告 错误 信息 以 及 执行 统计 。 用 户 则 可 以 通过 操作 器 Operator 
模块 或 Metadata Navigator 的 Web 界面 浏览 执行 日 志 信息 ， 如 图 4.7 所 示 。 
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; 监视 会 话 
任意 Java 平 台 \ 7 查看 报告 
三 EEC DS 
\ 1 Cs 
7 
提交 全 务 / 
7 
任意 IS0-92 关 系数 / 读 会 话 
据 库 管理 系统 WV 写 报告 





任意 Java 平 台 返回 代码 执行 任务 


图 47 运行 时 组 件 
3. 存储 库 


存储 库 由 一 个 主 存储 库 和 几 个 工作 存储 库 组 成 。 这 些 存储 库 是 存储 在 关系 数据 库 管 理 系统 中 
的 数据 库 。 模 块 配置 、 开 发 或 使 用 的 全 部 对 象 被 存储 在 其 中 的 一 个 存储 库 中 ， 并 且 通 过 各 种 体系 
结构 的 组 件 ， 以 客户 服务 器 模式 得 到 访问 。 

通常 ， 存 储 库 中 仅 有 一 个 主 存储 库 ， 其 中 包含 安全 信息 〈 用 户 资料 及 权限 )、 拓 扑 信息 (技术 
及 服务 的 定义 ) 以 及 目标 的 各 版 本 。 利 用 Topology Manager 以 及 Security Manager 使 包含 在 主 存 
储 库 中 的 信息 得 到 保留 。 由 于 上 述 模 块 中 均 存 储 拓扑 和 安全 信息 ， 所 以 ， 它 们 都 具备 对 主要 存储 
库 的 访问 权限 。 这 些 信息 之 所 以 能 够 都 得 到 安全 的 保存 ， 都 是 依靠 拓扑 管理 器 和 安全 管理 器 来 实 
现 。 工作 存储 库 主 要 存储 一 些 项 目的 信息 : 模块 配置 、 项 目 开 发 或 使 用 的 全 部 对 象 及 运行 时 信息 ， 
包括 数据 存储 、 列 、 数 据 完整 性 约束 、 交 叉 索 引 、 声 明 式 规则 、 软 件 包 、 程 序 、 场 景 、 日 志 等 。 
用 户 可 以 利用 Designer 和 Operator 模块 对 工作 存储 库 里 的 内 容 进行 管理 ， 图 4.8 所 示 为 存储 库 架 
构图 。 
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区 主 存储 库 S 
| 
[J 
工作 存储 库 执行 存储 库 


4.8 主 存储 库 及 工作 存储 库 


用 户 利用 Designer 以 及 Operator 模块 对 工作 存储 库 的 内 容 进行 管理 。 还 可 以 通过 运行 时 的 
Agent (代理 程序 ) 对 工作 存储 库 进行 访问 。 在 工作 存储 库 仅 被 用 于 存储 执行 信息 时 (通常 出 于 生 
产 目 的 )， 可 以 将 其 称 为 执行 存储 库 。 在 运行 时 ， 利 用 Operator 界面 以 及 通过 Agent 代理 程序 》 
可 以 对 执行 存储 库 进 行 访问 。 然 而 ， 所 有 工作 存储 库 始 终 附 属于 一 个 并 且 是 唯一 一 个 主 存储 库 。 

4. Metadata Navigator 

Metadata Navigator 是 一 种 Java 2 Enterprise Edition (J2EE) 应 用 ， 可 以 提供 对 存储 库 的 Web 
访问 。 它 使 得 用 户 能 够 对 对 象 进行 浏览 ， 包 括 项 目 、 模 块 以 及 执行 日 志 。Metadata Navigator 可 以 
被 安装 在 应 用 服务 器 上 ， 诸 如 Oracle Container for Java (OC4J) 或 Apache Tomcat。 

企业 用 户 、 开 发 人 员 、 操 作 人 员 以 及 管理 人 员 可 以 通过 Web 浏览 器 访问 Metadata Navigator。 
凭借 其 全 面 的 Web 界面 ， 用户 能 够 看 到 流程 图 、 追 踪 所 有 数据 源 ， 甚 至 深入 到 字段 级 了 解构 建 数 
据 所 使 用 的 转换 。 用 户 还 可 以 通过 Metadata Navigator 从 Web 浏览 器 中 发 布 和 监控 场景 ， 如 图 4.9 
所 示 。 
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任意 IS0-92 关 系 
数据 库 管理 系统 





图 4.9 Metadata Navigator 


5. 其 他 组 件 及 特征 
Oracle Data Integrator 还 包括 以 下 可 选择 性 组 件 及 特征 : 


® 知识 模块 可 以 使 技术 、 数 据 库 以 及 应 用 程序 快速 便捷 集成 的 实现 成 为 可 能 它们 存在 于 范 
围 广泛 的 平台 中 ,包括 Oracle、 Teradata、 Sybase IQ、 Netezza、 SAP/R3、Oracle Applications、 
Siebel、LDAP 以 及 XML。 

@ 具备 负载 均衡 的 Advanced Parallel Option 特性 ， 通 过 自动 平衡 几 种 Agent ( 代理 程序 ) 间 
的 工作 负载 ， 使 数据 的 大 批量 处 理 成 为 可 能 。 

@ 高 级 版 本 管理 可 以 提供 一 种 管理 、 保 护 以 及 复制 工作 单元 修订 的 界面 ， 即 使 是 在 最 大 程度 
的 开发 环境 下 。 

e Common Format Designer (CFD ) 特性 使 用 户 能 够 设计 或 从 其 他 数据 模型 中 快速 组 装 数据 
模型 ， 并 随后 自动 生成 用 于 加 载 和 从 该 模型 中 提取 数据 的 流程 。 诸 如 ， 用 户 能 够 利用 
Common Format Designer 通过 集合 异 构 源 生成 操作 性 数据 存储 、 数 据 中 心 或 数据 规范 格 
式 。 它 还 可 以 被 用 来 设计 数据 仓库 模型 (诸如 ，Star 或 Snowflake Schema、3NF ) 。 


Oracle Data Integrator 体系 结构 的 组 织 使 之 成 为 一 个 代表 着 当前 最 先进 技术 水 平 的 较为 完整 
的 数据 集成 平台 ， 可 以 满足 近乎 所 有 数据 集成 的 需求 ， 其 界面 如 图 4.10 所 示 。 








图 4.10 ODI 界 面 


ODI 主要 在 ETL 和 数据 集成 的 场景 里 使 用 , 并 提出 了 知识 模块 的 概念 , 把 场景 中 详细 的 实现 

过 程 作为 一 个 一 个 的 知识 模块 ， 利 用 Python 脚本 语言 并 与 数据 库 的 SQL 语句 相 结合 ， 录 制 成 详 
细 的 步骤 正确 地 记录 下 来 , 因此 在 ODI 中 就 形成 了 100 多 个 知识 模块 ， 基 本 上 包含 了 所 有 一 般 应 
用 所 涉及 的 所 有 场景 ,在 ODI 中 将 这 100 多 个 知识 模块 进行 了 归 类 , 大 致 上 可 以 分 为 以 下 6 大 类 : 
反 向 工程 (RKM)、 正 在 加 载 (LKM)、 检查 (CKM)、 集 成 IKM)、 日 记 (JKM) 和 服务 (SKM) 
(图 4.11 所 示 为 Oracle Data Integrator 中 知识 模块 的 体系 结构 图 )。 知 识 模块 是 Oracle Data 

Integrator 的 核心 部 分 ， 能 够 实施 真正 的 数据 流 ， 并 定义 每 个 流程 在 多 个 系统 上 生成 代码 所 有 的 模 





录 读 取 ! 从 资源 装载 
逆向 工程 元 数据 ee 到 工作 台 





4.11 ”ODI 中 知识 模块 的 体系 结构 
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@ 反 向 工程 (Reverse-engineering Knowledge Modules，RKM ) : 用 于 完成 从 数据 源 系统 和 
目标 系统 的 数据 结构 的 反 向 工程 来 形成 数据 模型 的 功能 。 

@ 日 记 (Jourmalizing Knowledge Modules，JKM ) : 用 于 为 单一 或 一 组 表 / 视 图 记录 新 建 的 和 
修改 的 数据 。 

e@ 正在 加 载 (Loading Knowledge Modules，LKM ) : 用 于 完成 从 源 数 据 库 中 抽取 数据 ， 并 
加 载 到 临时 表 的 过 程 。 

@ 检查 (Cheek Knowledge Modules，CKM ) : 用 于 完成 对 经 过 抽取 得 到 的 源 数 据 的 质量 检 
查 工作 ， 检 测 其 合法 性 。 

e@ 集成 (Integration Knowledge Modules，IKM ) : 完成 将 临时 表 中 的 数据 转换 加 载 到 目标 数 
据 库 中 对 应 的 数据 表 内 。 

@ 服务 ( Service Knowledge Modules，SKM ) : 提供 ODI 与 WEB 服务 的 接口 功能 ， 并 将 数 
据 以 Web Service 的 方式 展现 出 来 。 


4.3.2 ODI 的 特点 


与 传统 的 ETL 相 比 ，ODI 在 性 能 和 成 本 等 方面 都 存在 着 很 大 的 优势 。 传 统 的 ETL 工具 ， 其 
运行 方式 首先 是 从 多 种 数据 源 中 抽取 数据 ， 然 后 在 一 个 专 有 的 、 中 间 层 的 ETL 引擎 转换 数据 ， 最 
后 装载 经 过 转换 后 的 数据 到 数据 仓库 或 集成 服务 器 中 。 其 中 数据 转换 步骤 是 ETL 过 程 中 计算 最 为 
密集 的 步骤 , 执行 时 是 由 专 有 ETL 引擎 在 专 有 服务 器 上 完成 的 ， 导 致 在 整个 过 程 中 容易 造成 瓶颈 
现象 。 而 ODI 不 是 采用 独立 的 引擎 ， 而 是 结合 手工 编码 和 ETL 方法 通过 利用 RDBMS 的 能 力 进 
行 数据 的 转换 , 充分 利用 了 数据 库 管理 系统 的 能 力 和 吞吐 量 , 因此 提供 了 最 优 的 性 能 和 可 伸缩 性 ， 
并 且 容 易 管理 整个 集成 系统 的 架构 。 

ODI 体系 中 采用 了 声明 式 设计 ， 即 开发 者 只 需要 设计 过 程 做 什么 ， 而 不 需要 详细 描述 它 怎样 
来 做 ， 可 以 有 效 地 提高 工作 效率 。 

ODI 最 大 的 优势 是 预 置 的 、 可 热 插 入 的 知识 模块 。 知识 模块 是 给 定 集成 任务 的 一 个 代码 模块 ， 
这 些 代 码 是 开放 的 ， 并 且 能 够 让 技术 专家 通过 图 形 化 用 户 界面 进行 编辑 来 实现 新 的 集成 方法 或 最 
佳 实践 。 

由 此 可 见 ， 利 用 ODI 进行 数据 集成 会 给 开发 者 带 来 很 多 的 方便 ， 优 越 性 很 高 ， 但 是 其 成 本 也 
是 相当 昂贵 。 另 一 方面 , ODI 在 具有 超大 数据 量 的 情况 下 ,进行 批量 加 载 时 会 有 些 显得 力不从心 。 


4.3.3 ”Microsoft SQL Server Integration Services (SSIS) 简介 


SSIS 是 Microsoft SQL Server Integration Services 的 简称 , 是 生成 高 性 能 数据 集成 解决 方案 ( 包 
括 数据 仓库 的 提取 、 转 换 和 加 载 包 ) 的 平台 。 

Integration Services 包括 用 于 生成 和 调试 包 的 图 形 工具 和 向 导 :; 用 于 执行 工作 流 函数 (如 FTP 
操作 )、 执行 SQL 语句 或 发 送 电子 邮件 的 任务 ; 用 于 提取 和 加 载 数据 的 数据 源 和 目标 ; 用 于 清理 、 
聚合 合并 和 复制 数据 的 转换 ;用 于 管理 Integration Services 的 服务 ; 以 及 用 于 对 Integration Services 
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对 和 象 模型 编程 的 应 用 程序 编程 接口 (API)。SSIS 的 体系 结构 如 图 4.12 所 示 。 
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Integration Services 数据 流 
































图 4.12 SSIS 系统 结构 图 


SSIS 体系 结构 大 体 上 由 5 部 分 组 成 ， 分 别 是 : Integration Services 服务 、Integration Services 
对 象 模型 、Integration Services 运行 时 和 运行 时 可 执行 文件 ， 以 及 封装 的 数据 流 引 擎 和 数据 流 组 件 
的 数据 流 任务 。 其 中 数据 流 任务 是 SSIS 中 的 一 个 核心 任务 。 


。 Integration Services 服务 : 用 于 监视 正在 运行 的 Integration Services 包 和 管理 包 的 存储 。 

@ Integration Services 对 象 模型 : 用 于 访问 Integration Services 工具 、 命 令 行 使 用 工具 以 及 应 
用 程序 编程 接口 (API) ， 用 于 创建 在 包 中 使 用 的 自 定义 组 件 或 用 于 创建 、 加 载 、 运 行 和 
管理 包 的 自 定义 应 用 程序 。 

® Integration Services 运行 时 : 主要 保存 包 布 局 ， 运 行 包 ， 并 为 日 志 记 录 、 断 点 、 配 置 、 连 
接 和 事务 提供 支持 。 

”Integration Services 运行 时 可 执行 文件 : 包括 包 、 容 器 、 任 务 以 及 Integration Services 中 包 
含 的 事件 处 理 程序 ， 同 时 还 包括 用 户 开发 的 自 定 义 任务 等 。 

e 数据 流 引 党 和 数据 流 组 件 : 数据 流 任务 封装 了 数据 流 引 擎 。 数据 流 引 擎 提供 将 数据 从 源 移 
动 到 目标 的 内 存 中 的 缓冲 区 ， 并 调用 从 文件 和 关系 数据 库 中 提取 数据 的 源 ， 同 时 还 管理 修 
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改 数据 的 转换 以 及 加 载 数据 或 使 数据 可 为 其 他 进程 所 用 的 目标 。Integration Services 数据 
流 组 件 为 Integration Services 所 包含 的 源 、 转 换 和 目标 组 件 ， 也 可 以 在 数据 流 中 包含 用 户 
自 定 义 的 组 件 。 


数据 流 任务 包括 三 种 不 同类 型 的 数据 流 组 件 ， 即 源 、 转 换 和 目标 。 其 中 : 


@ 源 组 件 是 一 组 数据 存储 体 ， 主 要 包括 关系 数据 库 中 的 表 、 视 图 、 文 件 (平面 文件 、Excel 
文件 、XML 文件 等 ) ; 系统 内 存 中 的 数据 集 ; 系统 以 外 的 外 部 数据 等 。 

e@ 转换 则 是 数据 流 任 务 的 核心 组 件 ， 包 含 了 丰富 的 数据 转换 组 件 ， 如 数据 更 新 、 聚 合 、 合 并 、 
分 发 、 排 序 、 查 找 等 。 

e@ 目标 组 件 与 源 组 件 相 对 应 ， 也 是 一 组 数据 存储 体 ， 用 于 存储 目标 数据 。 三 种 数据 流 组 件 之 
间 则 是 通过 “ 流 (Flow ) ”组 件 相 连 ， 以 完成 数据 流 任务 。 数 据 流 的 执行 过 程 可 以 认为 是 
一 个 流水 线 过 程 ， 每 一 行 数据 都 是 装配 线 中 需要 处 理 的 零件 ， 而 每 一 个 转换 都 是 装配 线 中 
的 处 理 单元 。 图 4.13 能 充分 体现 三 者 之 间 的 关系 。 
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4.13 三 种 数据 流 组 件 之 间 的 关系 


在 SQL Server Integration Services 中 使 用 图 形 设计 工具 或 以 编程 生成 方式 将 对 象 组 合 到 包 中 。 
包 是 一 个 有 组 织 的 集合 ， 包 括 连接 、 控 制 元 素 、 数 据 流 元 素 、 事 件 处 理 程序 、 变 量 和 配置 等 。 用 
户 可 将 完成 的 包 保存 到 SQL Server、SSIS 包 存 储 区 或 文件 系统 中 ， 用 于 将 来 被 检索 和 执行 。 包 是 
由 一 个 控制 流 以 及 可 选 的 一 个 或 多 个 数据 流 组 成 的 ， 图 4.14 所 示 为 一 个 简单 包 ， 其 中 包含 了 一 个 
带 有 数据 流 任务 的 控制 流 。 
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图 4.14 包 


控制 流 包含 了 一 个 或 多 个 在 包 运 行 时 执行 的 任务 和 容器 ， 主 要 负责 高 层 的 逻辑 拓扑 ， 完 成 对 
各 个 数据 流 单元 的 串 接 ， 因 此 控制 流 也 可 称 为 工作 流 或 任务 流 。 在 工作 流 中 每 个 组 件 都 是 一 个 任 
务 , 这 些 任务 按 预 定义 的 数据 线 执行 ， 能 够 标识 出 业务 处 理 的 先后 顺序 。 任 务 流 中 存在 多 条 分 支 ， 
每 条 分 支 都 决定 这 每 个 任务 的 执行 结果 。 

SQL Server Integration Services (SSIS) 中 提供 了 三 种 不 同类 型 的 控制 流 元 素 : 包 中 结构 的 容 
器 、 提 供 功 能 的 任务 以 及 将 可 执行 文件 、 容 器 和 任务 连接 为 已 排序 控制 流 的 优先 约束 。 图 4.15 所 
示 是 具有 一 个 容器 和 6 项 任务 的 控制 流 。 
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图 4.15 控制 流 


1. 容器 
容器 是 为 控制 流 中 的 任务 提供 包 中 结构 和 服务 。Integration Services 中 共 包 含 三 种 类 型 的 容 
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器 , 分 别 是 Foreach 循环 容器 、For 循环 容器 和 序列 容器 , 用 于 对 任务 分 组 以 及 实现 重复 的 控制 流 。 
Foreach 循环 容器 是 枚 举 一 个 集合 ， 并 对 该 集合 的 每 个 成 员 重 复 其 控制 流 ，For 循环 容器 作用 是 重 
复 其 控制 流 ， 直 到 指定 表达 式 的 计算 结果 为 False 为 止 ， 序列 容器 可 以 允许 用 户 在 容器 内 定义 控 
制 流 子 集 ， 并 将 任务 和 容器 作为 一 个 单元 来 管理 。 


2. 任务 


任务 在 包 中 用 于 执行 工作 。 在 Integration Services 中 包含 执行 多 种 功能 的 任务 。 下 面 简单 介 
绍 几 类 较为 常用 且 重 要 的 任务 。 

e@ 数据 流 任务 : 是 定义 并 允许 提取 数据 、 应 用 转换 和 加 载 数据 的 数据 流 。 

@ 数据 准备 任务 : 用 于 复制 文件 和 目录 ， 下 载 文件 和 数据 ， 保 存 由 Web 方法 返回 的 数据 或 
使 用 XML 文档 。 主 要 包括 文件 系统 任务 、FTP 任务 、Web 服务 任务 以 及 XML 任务 等 。 

e@ 工作 流 任务 : 与 其 他 进程 通信 以 运行 包 或 程序 ， 在 包 之 间 发 送 和 接受 消息 ， 发 送 电子 邮件 
等 。 具 体 有 执行 包 任务 、 执 行 DTS 2000 包 任务 、 执 行进 程 任务 、 执 行 消息 队列 任务 、 发 
送 邮件 任务 等 。 

e@ SQL Server 任务 : 分 别 有 大 容量 插入 任务 、 执 行 SQL 任务 、 传 输 数据 库 任务 、 传 输 错误 
消息 任务 、 传 输 作 业 任 务 、 传 输 登 录 名 任务 、 传 输 主 存储 过 程 任务 和 传输 SQL Server 对 
象 任务 ， 主 要 用 于 访问 、 复 制 、 插 入 、 删 除 或 修改 SQL Server 对 象 和 数据 。 

@ Analysis Services 任务 : 主要 用 于 创建 、 修 改 、 删 除 或 处 理 Analysis Services 对 象 。 此 类 任 
务 主要 有 Analysis Services 处 理 任 务 、Analysis Services 执行 DDL 任务 ， 以 及 数据 挖掘 查 
询 任务 。 

e 脚本 任务 : 允许 用 户 自 定义 脚本 ， 以 扩展 包 的 功能 。 

@ 维护 任务 : 主要 用 于 执行 管理 功能 ， 如 备份 和 收缩 SQL Server 数据 库 、 重 新 生成 和 重新 
组 织 索引 以 及 运行 SQL Server 代理 作业 。 具 体 包括 备份 数据 库 任 务 、 检 测 数据 库 完 整 性 
任务 、 执 行 SQL Server 代理 作业 任务 、 执 行 T-SQL 语句 任务 、 清 除 历 史记 录 任 务 、 通 知 
操作 员 任 务 、 重 新 生成 索引 任务 、 重 新 组 织 索引 任务 、 收 缩 数据 库 任务 及 更 新 统计 信息 任 
务 等 。 


另外 ， 控 制 流 中 还 允许 用 户 使 用 支持 COM 的 编程 语言 或 NET 编程 语言 编程 自 定义 任务 。 
3. 优先 约束 


优先 约束 是 将 包 中 的 可 执行 文件 、 容 器 和 任务 连接 成 为 已 排序 的 控制 流 ， 可 以 控制 任务 和 容 
器 的 执行 序列 ， 并 制定 决定 可 执行 文件 、 任 务 和 容器 是 否 运行 的 条 件 。 可 执行 文件 可 以 是 For 循 
环 容器 、Foreach 循环 容器 、 序 列 容器 、 任 务 或 事件 处 理 程序 。 





4.3.4 SSIS 的 特点 


SSIS 超越 ETL 工具 之 处 不 仅 在 于 它 可 以 使 用 非 传统 的 应 用 场景 ， 而 且 在 于 它 是 一 个 可 以 实 
现 数据 集成 真正 的 开发 平台 .SQL Server Integration Services、Analysis Services 和 Reporting Services 
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共同 使 用 一 个 基于 Microsoft Visual Studio 的 开发 环境 ， 即 SQL Server Business Intelligence (BI1) 
Development Studio， 其 中 Integration Services 则 是 它们 之 间 的 中 转 站 、 枢 纽 点 ， 能 够 将 各 种 源头 
数据 , 经 过 ETL 过 程 后 导入 到 数据 仓库 ， 建 立 多 维 数据 集 ， 对 其 进行 分 析 、 挖 掘 并 通过 Reporting 
Services 将 结果 展现 给 企业 各 级 管理 者 。 以 下 阐述 关于 Integration Services 几 个 方面 的 特点 。 


1. 可 视 化 环境 


SSIS 的 可 视 化 环境 允许 通过 简单 的 拖 搜 控件 的 可 视 化 操作 来 实现 有 关 ETL 的 大 部 分 操作 。 
这 都 得 益 于 SSIS 强大 的 控制 流 (Control Flow Function) 以 及 灵活 多 样 且 高 效 的 数据 流 任 务 (Data 
Flow Task)。 正 因为 这 些 可 拖 搜 的 控件 的 存在 , SSIS 也 更 加 易于 操作 。 SSIS 的 可 视 化 环境 如 图 4.16 
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4.16 SSIS 的 可 视 化 操作 界面 























2. 具有 参数 设置 功能 


SSIS 的 另 一 大 特色 之 处 是 具有 强大 的 参数 设置 功能 , 可 以 通过 参数 连接 将 数据 源 的 表 名 与 目 
标 表 的 表 名 相关 联 ， 或 通过 参数 来 构建 SQL 语句 中 的 条 件 子 句 。 在 一 定 程 度 上 ， 能 够 简化 SSIS 
基本 的 可 执行 单位 Package 程序 的 调用 。 
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3. 可 编程 性 

SSIS 除了 提供 的 专业 数据 集成 开发 环境 外 ， 它 还 通过 一 套 API 展示 其 所 有 功能 。API 既 有 托 
管 的 NET Framework， 也 有 本 机 的 Win32， 能 够 让 开发 者 使 用 任意 一 种 NETFramework 所 支持 的 
语言 (Visual C#、Visual Basic、NET 等 ) 和 Visual C++ 支持 的 语言 自 定义 开发 组 件 用 以 扩展 SSIS 
功能 。SSIS 体现 SSIS 可 编程 性 这 一 特点 的 同时 ， 也 突出 地 表现 了 它 的 可 扩展 性 。 


4. 可 扩展 性 


SSIS 的 可 扩展 特性 是 通过 将 自 定 义 代 码 作为 可 以 再 度 利用 的 扩展 封装 到 SSIS 中 ， 并 在 此 基 
础 上 充分 利用 日 志 记 录 、 调 试 和 BI 集成 等 功能 , 将 它们 在 自 定义 代码 方面 的 现 有 投资 用 于 数据 集 
成 。 除 此 之 外 ，SSIS 还 可 以 获得 基于 脚本 的 可 扩展 性 。SSIS 既 有 针对 任务 流 的 脚本 组 件 ， 也 有 针 
对 数据 流 的 脚本 组 件 ， 两 者 都 允许 用 户 用 Visual Basic 和 .NET 语言 编写 脚本 来 添加 其 功能 。 


4.3.5 1IBM InfoSphere Information Server 简介 


IBM InfoSphere Information Server 提供 数据 集成 的 单一 平台 。 和 套件 中 的 组 件 组 合 在 一 起 以 创 
建 企业 信息 体系 结构 的 统一 基础 ， 能 够 进行 扩展 以 满足 任何 信息 量 需求 。 可 以 使 用 该 套件 更 快速 
地 交付 业务 结果 ， 同 时 在 整个 信息 全 景 中 维护 数据 质量 和 完整 性 。 

IBM InfoSphere Information Server 有 助 于 业务 和 IT 人 员 进行 协作 ， 以 了 解 各 种 源 中 信息 的 
意义 、 结 构 和 内 容 。 通过 使 用 InfoSphere Information Server， 使 用 者 可 以 采用 新 的 方式 访问 和 使 
用 信息 ， 以 推动 创新 ， 提 高 运营 效率 并 降低 产品 运营 中 的 风险 。 

图 4.17 显示 了 IBM InfoSphere Information Server 的 关键 功能 ， 以 供 使 用 者 用 于 实施 完整 的 数 
据 集 成 策略 。 这 些 功 能 的 核心 是 一 个 公共 元 数据 存储 库 ， 用 于 为 IBM InfoSphere Information 
Server 的 所 有 组 件 存储 已 导入 的 元 数据 、 项 目 配置 、 报 告 和 结果 。 在 元 数据 存储 库 中 共享 已 导入 
的 数据 时 ， 用 户 同 一 项 目 内 的 其 他 使 用 者 可 以 使 用 其 他 IBM InfoSphere Information Server 组 件 中 
的 已 导入 资产 并 与 其 进行 交互。 
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IBM InfoSphere Information Server 包括 以 下 核心 功能 。 
。 了 解 和 协作 


创建 信息 项 目的 蓝图 以 开发 业务 的 统一 视图 ”使 用 该 蓝图 确定 有 助 于 保持 业务 透视 图 和 IT 
透视 图 一 致 的 公共 业务 语言 。 通过 了 解 和 分 析 信息 的 意义 关系 和 数据 志 来 发 现 和 定义 现 有 数据 
源 。 

通过 以 数据 志和 质量 证 明 支 持 完整 、 权 威 的 信息 视图 ， 增 强 可 视 性 和 数据 管理 。 可 使 这 些 视 
图 作为 共享 服务 广泛 可 用 并 且 可 复 用 ， 而 其 中 国有 的 规则 将 进行 集中 维护 。 

日 清理 和 监视 

以 批 处 理 方式 实时 标准 化 、 清 理 和 验证 信息 。 将 已 清理 的 信息 装 入 到 分 析 视图 ， 以 监视 和 维 
护 数据 质量 。 在 整个 企业 复 用 这 些 视图 ， 以 确定 符合 业务 目标 的 数据 质量 度量 ， 从 而 支持 组 织 快 
速 发 现 和 修正 数据 质量 问题 。 

在 系统 之 间 链 接 相 关 的 记录 ， 以 确保 信息 的 一 致 性 和 质量 。 将 不 同 数据 整合 到 单个 可 靠 的 
记录 中 ， 以 确保 最 佳 数据 在 多 个 源 中 继续 存在 。 将 此 主 记录 装 入 到 运作 数据 存储 、 数 据 仓库 或 主 
数据 应 用 程序 中 以 创建 可 信和 的 信息 源 。 

® 变换 和 交付 

设计 和 开发 数据 集成 项 目的 蓝图 ， 以 提高 可 视 性 并 降低 风险 。 发 现 系统 之 间 的 关系 ， 并 定义 
在 多 个 源 和 目标 之 间 集 成 资产 元 数据 的 迁移 规则 了 解 关 系 并 集成 数据 可 降低 运营 成 本 并 提升 数 
据 质 量 。 

收集 、 变 换 和 分 发 大 量 数据 。 使 用 内 置 变 换 功能 来 缩短 开发 时 间 ， 提 高 可 伸缩 性 并 提供 设计 
灵活 性 。 通过 批量 数据 交付 《ETL)、 虚 拟 数据 交付 (联合 ) 或 增 量 数据 交付 (更 改 数据 捕获 ) 向 
业务 应 用 程序 实时 交付 数据 。 

1. 信息 集成 阶段 

IBM InfoSphere Information Server 专注 于 作为 有 效 信息 集成 项 目 组 成 部 分 的 几 个 阶段 。 这 些 
阶段 随 项 目 生命 周期 的 发 展 和 更 改 而 不 断 演进 。 通过 提供 关键 信息 集成 功能 ，IBM InfoSphere 
Information Server 能 够 处 理 其 中 每 个 阶段 以 确保 项 目 成 功 。 

图 4.18 显示 套件 组 件 如 何 一 起 工作 以 创建 统一 的 数据 集成 解决 方案 。 公共 元 数据 基础 使 不 同 
类 型 的 用 户 能 够 通过 使 用 针对 其 角色 优化 的 工具 来 创建 和 管理 元 数据 。 通 过 这 种 对 个 性 化 工具 的 
专注 ， 更 易于 在 角色 之 间 进 行 协作 。 
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4.18 IBM InfoSphere Information Server 工作 套件 


企业 架构 设计 师 使 用 InfoSphere Blueprint Director 来 规划 和 管理 项 目 远 景 。 存 在 信息 项 目的 
蓝图 后 , 数据 架构 设计 师 可 以 使 用 InfoSphere Data Architect 来 发 现 组 织 的 数据 的 结构 、 关 联 和 集 
成 数据 资产 以 及 基于 这 些 关 系 来 创建 物理 和 逻辑 模型 。 该 数据 可 以 输入 到 InfoSphere Business 
Glossary 中 ， 其 中 业务 分 析 员 和 数据 分 析 员 定义 和 确定 业务 概念 的 共同 理解 。 

数据 分 析 员 还 可 以 使 用 InfoSphere Discovery 来 自动 执行 数据 关系 的 确定 和 定义 ， 以 为 
InfoSphere Information Analyzer 和 InfoSphere FastTrack 供应 该 信息 。 

数据 质量 专家 使 用 InfoSphere Information Analyzer 来 设计 、 开 发 和 管理 需要 管理 的 数据 的 质 
量规 则 ， 以 确保 数据 质量 。 随 着 组 织 数据 的 不 断 发 展 ， 可 以 对 这 些 规 则 进行 实时 修改 ， 以 便 将 可 
信 的 信息 交付 给 InfoSphere Business Glossary、InfoSphere FastTrack、InfoSphere DataStage and 
QualityStage 和 其 他 InfoSphere Information Server 组 件 。 

数据 分 析 员 可 以 使 用 InfoSphere FastTrack 来 创建 将 业务 需求 转换 为 业务 应 用 程序 的 映射 规 
范 。 数 据 集成 专家 可 以 使 用 这 些 规范 来 生成 将 成 为 InfoSphere DataStage and QualityStage 中 复杂 
数据 变换 的 起 始点 的 作业 。 通 过 使 用 InfoSphere DataStage and QualityStage Designer， 数 据 集成 专 
家 可 以 开发 用 于 抽取 、 变换 、 装 入 数据 并 检查 数据 质量 的 作业 。 SOA 架构 设计 师 使 用 InfoSphere 
Information Services Director 将 套件 组 件 中 的 集成 任务 部 署 为 一 致 且 可 复 用 的 信息 服务 。 

IBM InfoSphere Metadata Workbench 提供 使 用 者 的 数据 资产 的 端 到 端 数据 流 报 告 和 影响 分 
析 。 业 务 分 析 员 、 数 据 分 析 员 、 数 据 集成 专家 和 其 他 用 户 与 该 组 件 进行 交互 ， 以 浏览 和 管理 IBM 
InfoSphere Information Server 生成 和 使 用 的 资产 。 
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InfoSphere Metadata Workbench 支持 用 户 了 解 和 管理 整个 企业 中 的 数据 流 ， 并 发 现 和 分 析 
InfoSphere Information Server 元 数据 存储 库 中 信息 资产 之 间 的 关系 。 用 户 可 使 用 InfoSphere 
Metadata Asset Manager 将 技术 信息 导入 到 元 数据 存储 库 中 , 如 BI 报告 、 逻 辑 模型 、 物 理 模 式 以 
及 InfoSphere DataStage and QualityStage 作业 。 


2. 套件 中 的 组 件 


IBM InfoSphere Information Server 套件 包含 许多 组 件 ， 每 个 组 件 都 提供 不 同 的 数据 集成 功能 。 连 
接 在 一 起 后 ， 这 些 组 件 将 形成 在 整个 企业 内 交付 可 信 信 息 所 必需 的 构建 块 ， 而 与 环境 的 复杂 性 无 关 。 

IBM InfoSphere Information Server 解决 方案 包含 了 不 同 的 组 件 以 满足 使 用 者 的 需求 。 每 个 解 
决 方案 都 包含 InfoSphere Blueprint Director 、InfoSphere Discovery 和 InfoSphere Metadata 
Workbench 作为 基础 组 件 。 每 个 解决 方案 中 的 其 他 组 件 提供 专注 于 数据 质量 、 数 据 集成 以 及 连接 
业务 用 户 和 IT 用 户 的 不 同 功能 ， 如 表 4.1 所 示 。 


表 4.1 InfoSphere Information Server 解决 方案 中 包含 的 组 件 























组 件 InfoSphere Information | InfoSphere Information | InfoSphere Information 
Server 商业 信息 交流 Server 数据 集成 平台 Server 数据 质量 平台 
画作 Sphere Blueprint v 2 v 
Director 
InfoSphere Discovery W W W 
InfoSphere Metadata 
Workbench 4 
InfoSphere 
W W 
Data Architect 
InfoSphere Business 
Vv 

Glossary 
InfoSphere Business 大 
Glossary Anywhere 
InfoSphere Information 
Analyzer a “ 
InfoSphere 
QualityStage® 多 
InfoSphere Information 

; ; W [a 
Services Director 
InfoSphere DataStage and v 
QualityStage Designer 
InfoSphere Data Click 
InfoSphere FastTrack 
InfoSphere Data x 
Replication 
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3. InfoSphere Information Server 产品 服务 组 合 中 的 其 他 组 件 

在 定义 数据 集成 策略 中 主动 发 挥 作 用 是 实现 业务 目标 的 关键 。 不 论 用 户 的 目标 是 数据 质量 、 
数据 集成 、 连 接 业 务 与 IT 还 是 上 述 项 的 某 种 组 合 ，IBM InfoSphere Information Server 都 有 很 好 
的 扩展 性 ， 以 满足 用 户 的 需求 。 


4. IBM InfoSphere Information Server 体系 结构 和 概念 


IBM InfoSphere Information Server 提供 可 处 理 所 有 类 型 的 信息 集成 的 统一 体系 结构 。 公 共 服 
务 、 统 一 并 行 处 理 以 及 统一 元 数据 是 服务 器 体系 结构 的 核心 。 

体系 结构 是 面向 服务 的 , 使 IBM InfoSphere Information Server 能 够 在 不 断 发 展 的 面向 企业 服 
务 的 体系 结构 中 发 挥 作用 。 面向 服务 的 体系 结构 也 连接 InfoSphere Information Server 的 各 个 套件 
产品 模块 。 

通过 消除 重复 的 功能 ， 此 体系 结构 有 效 地 使 用 硬件 资源 ， 并 减少 部 署 集 成 解决 方案 所 必需 的 
开发 和 管理 的 工作 量 。 

图 4.19 显示 了 InfoSphere Information Server 体系 结构 。 
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图 4.19 InfoSphere Information Server 高 级 别 体系 结构 


(1) 统一 并 行 处 理 引 擎 

InfoSphere Information Server 的 大 多 数 工作 都 在 并 行 处 理 引 擎 中 进行 。 引 擎 不 仅 处 理 数据 处 
理 需 求 ， 而 且 还 对 IBM InfoSphere Information Analyzer 执行 大 型 数据 库 分 析 , 对 IBM InfoSphere 
QualityStage 执行 数据 清理 ， 并 对 IBM InfoSphere DataStage 执行 复杂 变换 。 此 并 行 处 理 引擎 的 
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设计 目的 是 提供 以 下 优势 : 

e@ 并 行 性 和 数据 流水 线 ， 以 便 在 不 断 缩短 的 时 间 期 限 内 完成 不 断 增加 的 大 工作 量 。 

e@ 可 伸缩 性 , 通过 添加 硬件 ( 例如， 网 格 中 的 处 理 器 或 节点 ) 而 不 更 改 数据 集成 设计 而 实现 。 

e@ 经 优化 的 数据 库 、 文 件 以 及 队列 处 理 ， 用 于 处 理 不 能 一 次 全 部 放 入 内 存 的 大 型 文件 或 大 量 
的 小 型 文件 。 

@ 公共 连接 ， 无 论 信息 源 是 结构 化 的 还 是 非 结构 化 的 ， 在 大 型 机 上 还 是 应 用 程序 上 ， 
InfoSphere Information Server 都 可 以 连接 到 这 些 信 息 源 。 元 数据 驱动 的 连接 在 套件 组 件 之 
间 共 享 ， 而 且 连 接 对 象 可 在 各 功能 之 间 复 用 。 


连接 器 提供 设计 时 元 数据 导入 、 数 据 浏览 和 采样 、 运 行 时 动态 元 数据 访问 、 错 误 处 理 以 及 高 
功能 和 高 性 能 运行 时 数据 访问 。 名 为 packs 的 封装 应 用 程序 的 预 构建 接口 为 SAP、Siebel、 Oracle 
以 及 其 他 产品 提供 了 适配器 ， 实 现 了 与 企业 应 用 程序 及 关联 报告 和 分 析 系 统 的 集成 。 


(2) 统一 元 数据 

InfoSphere Information Server 在 统一 元 数据 基础 结构 上 进行 构建 ， 该 基础 结构 使 业务 领域 和 
技术 领域 之 问 能 够 共享 一 些 协 定 。 该 基础 结构 减少 开发 时 间 并 提供 可 提高 信息 置信 度 的 持久 记录 。 
InfoSphere Information Server 的 所 有 功能 共享 同一 个 元 模型 ， 这 使 得 不 同 角色 和 功能 间 的 协作 更 
加 容易 。 

公共 元 数据 存储 库 为 所 有 InfoSphere Information Server 套件 组 件 提供 了 持久 存储 所 有 产品 
都 依赖 于 存储 库 来 浏览 、 查 询 和 更 新 元 数据 。 该 存储 库 包 含 两 种 元 数据 : 

@ 动态 元 数据 。 动态 元 数据 包含 设计 时 信息 。 

e@ 操作 元 数据 。 操作 元 数据 包括 性 能 监视 、 审 计 和 日 志 数据 以 及 数据 概要 分 析 样 本 数据 。 


例如 ， 因 为 存储 库 供 所 有 套件 组 件 共享 ， 所 以 InfoSphere Information Analyzer 创建 的 概要 分 
析 信 息 将 对 InfoSphere DataStage 和 InfoSphere QualityStage 的 用 户 即 时 可 用 。 

存储 库 是 一 个 J2EE 应 用 程序 ， 它 使 用 IBM DB2、Oracle 或 SQL Server 之 类 的 标准 关系 
数据 库 进 行 持久 保存 (DB2 随 InfoSphere Information Server 一 起 提供 )。 这 些 数 据 库 提供 备份 、 
管理 、 可 伸缩 性 、 并 行 访问 、 事 务 以 及 并 发 访问 。 

(3) 公共 服务 

InfoSphere Information Server 完全 是 在 一 组 共享 服务 上 构建 的 ， 这 些 服 务 集中 了 平台 上 的 核 
心服 务 。 它 们 包括 各 种 管理 任务 ， 例 如 安全 性 、 用 户 管理 、 日 志 记录 以 及 报告 。 共 享 服务 允许 在 
一 个 位 置 对 这 些 任务 进行 管理 和 控制 ， 而 不 考虑 正在 使 用 的 套件 。 公 共 服 务 还 包括 元 数据 服务 ， 
该 服务 提供 了 平台 上 标准 的 面向 服务 的 访问 和 元 数据 分 析 。 此 外 ， 公 共 服 务 层 还 管理 如 何 从 产品 
功能 中 部 署 服务 , 通过 使 用 一 致 和 易于 使 用 的 机 制 , 使 得 清理 和 变换 规则 或 联合 查询 能 够 在 SOA 
中 发 布 为 共享 服务 。 

InfoSphere Information Server 产品 可 以 访问 三 个 常规 类 别 的 服务 : 


@ 设计 。 设计 服务 可 帮助 开发 者 创建 同样 能 够 共享 的 有 特定 功能 的 服务 。 例 如 ，InfoSphere 
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Information Analyzer 调用 列 分 析 器 服务 ， 该 服务 是 为 企业 数据 分 析 而 创建 的 ， 但 可 与 
InfoSphere Information Server 的 其 他 部 分 集成 ， 因 为 它 呈 现 了 公共 SOA 特征 。 

日 执行 。 执行 服务 包括 日 志 记录 、 调 度 、 监 视 、 报 告 、 安 全 性 和 Web 框架 。 

@ 元 数据 ,元 数据 服务 支持 在 各 个 工具 之 间 共 享 元 数据 ,因此 ,在 一 个 InfoSphere Information 
Server 组 件 中 所 作 的 更 改 会 在 所 有 套件 组 件 中 即时 可 见 。 元 数据 服务 与 元 数据 存储 库 集 
成 。 元 数据 服务 还 支持 与 外 部 工具 交换 元 数据 。 


公共 服务 层 部 署 在 符合 J2EE 的 应 用 程序 服务 器 上 , 例如 InfoSphere Information Server 附带 
的 IBM WebSphere Application Server。 


(4) 统一 用 户 界面 

InfoSphere Information Server 的 风格 是 公共 图 形 界面 和 工具 框架 。 共 享 界面 (例如 IBM 
InfoSphere Information Server 控制 台 和 IBM InfoSphere Information Server Web 控制 台 ) 在 不 同 产 
品 之 间 提 供 了 公共 的 界面 、 可 视 控件 和 用 户 体验 。 常 见 功能 (例如 目录 浏览 、 元 数据 导入 、 查 询 
以 及 数据 浏览 ) 都 以 统一 方式 显示 了 底层 的 公共 服务 。InfoSphere Information Server 提供 了 富 客 
户 机 接口 以 执行 非常 详细 的 开发 工作 ， 并 提供 了 在 Web 浏览 器 中 运行 以 进行 管理 的 瘦 客 户 机 。 

应 用 程序 编程 接口 (API) 支持 各 种 接口 样式 ， 包 括 标准 请 求 /应 答 、 面 向 服务 、 事 件 驱动 以 
及 计划 任务 调用 。 


4.3.6 Sybase Data Integrator Suite 简介 


如 今 ， 企 业 迫 切 希望 DBA 〈 数 据 库 管 理 员 ) 和 开发 人 员 能 够 集成 公司 数据 ， 以 便 协 助 管理 
信息 、 挖 掘 客户 数据 库 或 满足 日 常 要求 。Sybase 正 借助 一 种 称 为 Sybase 数据 集成 (DI) 套件 
的 新 产品 来 满足 这 种 需求 。 此 项 新 技术 的 主要 功能 包括 : 


e 访问 多 个 不 同 数据 源 ， 且 能 够 创建 单一 、 集 成 的 数据 视图 。 

@ 访问 各 种 异 构 数据 源 ， 包 括 大 型 机 数据 源 。 

e 捕获 数据 源 中 的 实时 事件 ， 并 将 其 传播 到 应 用 程序 中 。 

日 使 用 上 下 文 搜索 对 结构 化 和 非 结构 化 数据 中 的 信息 进行 搜索 和 查询 。 

@ 使 用 Sybase WorkSpace 开发 应 用 程序 。 

@ 使 用 通用 的 系统 管理 控制 台 管理 DI 套件 组 件 。 

® 通用 的 安装 程序 ， 它 使 用 脚本 驱动 的 实用 程序 来 执行 交互 式 和 后 台 安 装 。 


Sybase DI 套件 包含 集成 数据 的 所 有 常用 技术 联邦、 复制 和 ETL) 以 及 实时 和 搜索 功能 。 图 
4.20 说 明了 数据 集成 套件 的 各 种 组 件 。 
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图 4.20 Sybase DI 套件 
1. 企业 信息 集成 


由 Sybase 最 近 兼 并 的 Avaki 公司 提供 的 Sybase 数据 联邦 是 DI 套件 的 一 个 关键 组 件 。 它 基于 
日 益 成 为 主流 的 企业 信息 集成 (EIID) 概念 ， 企 业 信息 集成 与 以 ETL 为 导向 的 数据 仓库 不 同 ， 因 
为 它 只 访问 数据 而 不 移动 信息 。ETL 本 身 就 是 一 个 负责 将 数据 移动 到 支持 商业 智能 报告 的 中 心 存 
储 库 或 数据 集 市 ， 由 很 多 步骤 组 成 的 过 程 。 

然而 ， 尽 管 EII 使 用 虚拟 化 来 显示 统一 的 信息 资源 ， 但 事实 上 它 是 调用 来 自 多 个 资源 的 “ 联 
邦 ” 数 据 而 不 是 进行 拷贝 。 随 着 数据 库 数量 不 断 增加 ， 联 邦 数据 方式 在 访问 分 布 式 数据 方面 变 得 
越 来 越 来 重要 。Avaki EII 为 用 户 提供 了 EII 技术 的 许多 核心 功能 ， 并 增加 了 网 格 功能 、 数 据 高 速 
缓存 、 独 立地 跨 防火 墙 和 管理 域 移动 数据 的 功能 以 及 共享 文件 的 功能 。 


2. 数据 联邦 


如 上 所 述 ， 联 邦 简化 了 集成 来 自 多 个 分 布 式 来 源 的 数据 的 过 程 ， 且 能 够 访问 集成 的 企业 数 
据 。 用 户 可 以 通过 它 : 


e@ 获取 来 自 多 个 不 同 来 源 的 数据 的 单一 虚拟 视图 , 这 些 来 源 包括 支持 JDBC/ODBC 访问 的 关 
系数 据 库 、 应 用 程序 (通过 JCA 或 者 Web 服务 ) 、Web 服务 、XML 文档 或 文件 。“ 联 
孝 ” 方 法 意味 着 ， 数 据 是 从 原始 数据 源 中 提取 出 来 的 ， 而 不 是 从 数据 副本 或 数据 集 市 中 提 
取出 来 的 。 

e@ 将 联邦 数据 以 Web 服务 、SQL 视图 (使 用 JDBC/ODBC 访问 ) 或 者 平面 文件 的 形式 提供 
给 需要 使 用 这 些 数据 的 应 用 程序 。 因 此 , 现在 应 用 程序 无 需 创 建 联邦 查询 或 者 直接 访问 源 
数据 库 ， 但 可 以 访问 数据 联邦 服务 器 以 执行 其 查询 。 

@ 利用 基于 GUI 的 工具 定义 数据 源 和 查询 ， 并 在 目录 中 存储 这 些 查询 以 便于 由 应 用 程序 执 
行 或 者 搜索 和 重用 。 它 还 支持 即时 查询 。 

@ 更 改 数 据 源 的 模式 或 者 将 数据 库 移动 到 其 他 服务 器 中 ， 且 不 破坏 应 用 程序 。 只 需 对 应 用 程 
序 正在 使 用 的 Web 服务 或 者 SQL 视图 进行 修改 即 可 。 
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日 依靠 用 户 身份 验证 的 安全 支持 以 及 在 EI 层 中 定义 的 与 查询 相关 的 常用 企业 验证 模式 和 精 
细 的 访问 控制 。 
日 确定 哪些 用 户 登 录 了 服务 器 及 他 们 运行 了 什么 样 的 查询 。 
日 为 面向 服务 的 应 用 程序 构建 数据 服务 层 ， 使 得 数据 层 和 业务 逻辑 分 离 。 


DI 套件 还 包含 了 提供 EI 功能 和 工具 的 数据 联邦 服务 器 。 用 户 分 别 使 用 套件 安装 程序 来 安装 
EI 功能 ， 使 用 Sybase WorkSpace 来 安装 工具 。 


3. 复制 


复制 组 件 是 DI 套件 的 数据 分 发 和 数据 同步 组 件 ， 它 包含 了 Sybase 复制 服务 器 的 所 有 组 件 。 
它 具 有 以 下 功能 : 


@ 支持 异 构 数据 库 (包括 ASE、Oracle、IBM DB2 和 Microsoft SQL Server ) 中 事务 数据 的 
移动 和 同步 。 

@ 提供 读 取 上 述 任意 数据 库 的 功能 ， 并 将 变化 传播 到 相同 的 或 不 同 的 目标 数据 库 中 。 

e@ 性 能 极 高 ， 由 于 采用 从 日 志文 件 读 取 数 据 库 变化 ， 而 非 基 于 触发 器 的 方法 时 ， 所 以 不 会 影 
响 数 据 库 的 正常 运行 。 

@ 以 事务 处 理 的 方式 实时 地 将 事务 从 源 数据 库 传 播 到 目标 数据 库 ( 即 不 向 目标 数据 库 提交 在 

源 数据 库 上 回 滚 的 事务 ) 。 此 外 ， 复 制 在 事务 级 别 上 维护 数据 完整 性 ， 从 而 确保 只 向 目标 

数据 库 提交 完整 事务 。 

在 分 布 式 异 构 系统 间 启 用 双向 复制 。 

根据 需要 允许 转换 正在 使 用 的 数据 。 

准许 将 源 数据 库 中 的 模式 变化 传播 到 目标 数据 库 中 。 

复制 是 非常 灵活 的 ， 它 允许 客户 指定 是 复制 整个 数据 库 、 整 个 表格 还 是 仅 复制 表 中 指定 的 

列 。 


4. 实时 事件 

实时 事件 通过 消息 基础 架构 从 异 构 数据 库 中 捕获 限时 事件 ， 并 将 其 推 入 业务 应 用 程序 中 。 有 
了 它 就 不 再 需要 基于 轮 询 的 应 用 程序 了 ， 因 为 这 些 应 用 程序 会 影响 生产 服务 器 的 效率 。 

此 组 件 具 有 以 下 功能 : 


e@ 能 够 从 各 种 数据 库 ( Sybase ASE、Oracle ) 中 捕获 事件 ， 并 将 这 些 变 化 传播 到 消息 总 线 中 。 
还 可 以 读 取消 息 总 线 中 的 事件 ， 并 将 其 作为 SQL 语句 在 数据 库 中 应 用 。 

”允许 应 用 程序 捕获 和 添加 与 事务 的 状态 相关 的 信息 ( 即 与 事务 相关 的 其 他 信息 ) ， 并 将 其 
作为 XML 消息 推 入 消息 总 线 中 。 

@ 支持 标准 的 消息 基础 架构 ， 例 如 Java 消息 服务 (JMS ) 以 及 传 入 和 传 出 WebSphere MQ 
的 消息 服务 。 
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5. 搜索 


搜索 组 件 提供 高 级 数据 服务 以 便 查询 、 定 位 和 分 析 数 据 。 它 自动 处 理 、 定 位 并 分 析 数 据 库 、 
集中 式 存储 库 、 程 序 库 、 文 件 系 统 、 网 络 驱动 器 和 现 有 文档 管理 系统 中 相关 性 最 大 的 信息 。 
用 户 可 以 通过 它 : 


@ 自动 捕获 和 聚集 非 结 构 化 数据 ; 检索 并 提供 相关 内 容 。 其 数据 导入 功能 包括 文件 系统 、 
Web 数据 和 数据 库 。 

@ 支持 多 种 格式 包括 Microsoft Word、 Excel 和 PowerPoint 纯 文本 文件 Adobe Acrobat PDF 
文件 以 及 HTML 文件 。 

e@ 以 自然 语言 进行 搜索 。 

进行 智能 处 理 。 它 可 以 推断 文档 中 的 概念 。 软 件 可 以 搜索 文档 、 段 落 和 元 数据 ， 并 对 它们 

进行 分 类 。 

个 性 化 。 搜 索 根据 设 定 的 兴趣 或 用 户 配 置 文件 自动 提供 内 容 。 

@ 与 语言 无 关 。 可 以 用 各 种 语言 进行 搜索 ， 且 不 是 基于 关键 字 的 。 


6. ETL ( 提取 、 转 换 、 装 载 ) 


目前 ，ETL 是 独立 于 数据 集成 套件 销售 的 。 需 要 传输 数据 的 用 户 可 以 单独 购买 。 用户 可 以 使 
用 它 访问 异 构 数 据 源 〈 数 据 库 、XML 文件 等 )、 转 换 数 据 并 将 其 装载 到 各 种 目标 数据 库 〈 数 据 仓 
库 、XML 文件 等 ) 中 。 


@ 目前 所 支持 的 数据 源 和 目标 数据 库 包 括 Oracle DB2、 MS SQL Server Sybase ASE、 Sybase 
IQ、XML 和 文本 文件 。 可 以 使 用 Sybase 适配器 提取 大 型 机 数据 ， 并 将 其 写 入 ETL 过 程 
将 使 用 的 文件 中 。ETL 工具 支持 各 种 服务 ， 包 括 SOAP 和 XMLRPC。 

图 形 化 开发 界面 使 用 户 可 以 利用 拖 放 功 能 创建 转换 流 。 用户 可 以 使 用 不 同 的 组 件 进行 输 
入 、 转 换 、 查 找 、 分 级 和 输出 。 对 于 每 个 组 件 ， 都 提供 Flash 教程 和 每 一 执行 流程 的 各 种 
向 导 。 此外， 仿真 环境 提供 完成 ETL 工作 的 步骤 ， 并 检查 每 个 组 件 的 输入 、 输 出 和 转换 。 

为 JavaScript 开发 提供 全 面 的 调试 工具 ， 此 工具 允许 逐 行 分 步 执 行 、 定 义 监 测 点 、 执 行 白 
盒 测 试 和 评估 表达 式 。 

ETL 工具 可 以 读 取 平面 文件 和 通过 特定 更 改 完 成 频繁 的 批 处 理 更 新 。 

@ 转换 组 件 包含 分 步 控 制 、 映 射 、 拆 分 和 转换 数据 流 、JavaScript 以 及 调用 外 部 代码 的 功能 。 

e@ 作业 控制 组 件 多 许 用 户 管理 相关 性 和 同步 转换 过 程 。 


7. Sybase 数据 管理 服务 器 


Sybase 数据 服务 管理 器 (DSA) 是 管理 数据 集成 (DI) 套件 组 件 的 图 形 界面 。 它 提供 以 控制 
面板 形式 组 织 的 可 视 DI 套件 组 件 ， 包 括 可 通过 Sybase Central 插件 访问 的 、 基 于 Sybase Central 
界面 的 服务 器 管理 器 。Sybase Central 界面 如 图 4.21 所 示 。 
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Dy Sybase Central 品 回 | 匀 
文件 四 编辑 固 视图 (W) 工具 中 连接 (OQ 帮助 人 

和 趾 国 | 加 | 局 | 部 | 明 - 时 - 必 -| 外 |¥ 有 和 Xx|o0 
上 下 文 (X): 回 Sybase Central se 























品 文件 夹 x | 其 Sybase Central 
Sybase Central 
多 SQL Anywhere 16 
岛 MobiLink 16 名 称 (N) 
“ 八 uknlte 16 多 SQL Anywhere 16 | 
民 中 继 服务 器 16 号 Mobiink 16 
UtraLte 16 
第 中 维 服 务 器 16 

















4 对 象 








图 4.21 Sybase Central 界面 

8. Sybase WorkSpace 

Sybase WorkSpace 是 DSA 提供 显示 有 关 执 行 特 定 管理 任务 的 信息 的 在 线 帮助 。 安 装 任何 DI 
套件 组 件 之 后 ， 即 可 访问 此 帮助 。 

WorkSpace 提供 开发 DI 套件 的 数据 联邦 、 复 制 和 实时 事件 组 件 的 功能 。 这 只 在 Windows 操 
作 系 统 中 可 用 。 

WorkSpace 可 以 作为 DI 套件 中 的 联邦 (Avaki EIT) 服务 器 的 工具 。 其 用 于 数据 集成 的 元 数据 
驱动 的 图 形 建 模 工具 将 帮助 用 户 集成 来 自 异 构 数据 源 的 数据 。 可 以 构建 数据 服务 ， 提 供 或 搜索 数 
据 源 ， 以 及 导入 或 创建 数据 服务 的 模式 模型 。 还 可 以 使 用 WorkSpace 企业 建 模 工具 中 的 
DataArchitect 进行 反 向 工程 或 创建 新 模式 模型 ， 然 后 将 它们 导入 数据 联邦 工具 中 ， 以 便 创 建 符合 
这 些 模 型 需要 的 数据 服务 。 

用 户 还 可 以 通过 WorkSpace 管理 和 建立 异 构 复 制 系统 。 用 户 创建 适用 于 复制 系统 的 信息 流动 
模型 ， 它 将 自动 管理 复制 定义 、 发 布 和 订阅 (创建 完成 之 后 ， 用 户 可 以 手动 修改 这 些 设 置 )。 用 户 
还 可 以 通过 企业 建 模 工具 反 向 工程 现 有 复杂 的 复制 环境 ， 以 执行 影响 分 析 。 

对 实时 事件 管理 而 言 ，WorkSpace 的 工具 有 助 于 捕获 实时 的 数据 库 事件 。 


9. Sybase 数据 集成 套件 解决 方案 


数据 集成 套件 组 件 提供 了 解决 企业 中 不 同 数据 集成 难题 的 工具 。 
表 4.2 提供 了 数据 集成 问题 的 列表 ， 包 括 问 题 的 详细 信息 以 及 DI 套件 提供 的 解决 方案 。 
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表 4.2 常见 数据 集成 问题 及 解决 方案 





问题 


详细 信息 


解决 方案 





数据 孤岛 


有 价值 的 数据 陷入 不 同 的 数据 源 或 不 兼容 的 数 
据 模式 中 。 现 有 系统 导致 这 些 数据 不 可 访问 。 
不 同 数据 源 中 的 数据 没有 被 集成 起 来 。 


复制 连接 所 有 支持 的 异 构 数据 存储 保持 




















数据 的 集成 性 和 近乎 实时 的 访问 数据 
由 于 数据 源 之 间 的 事务 变化 未 被 分 发 和 同步 所 
以 无 法 访问 实时 数据 
访问 生产 数据 将 影响 系统 的 运行 性 能 。 数据 联邦 有 助 于 : 
数据 仓库 中 的 数据 并 不 是 实时 的 。 ”获得 各 种 数据 的 单一 视图 
没有 统一 的 企 
业 数 据 视图 。 | 没有 来 自 不 同 数据 源 的 生产 数据 的 统一 视图 这 | 。 实时 查看 生产 数据 
将 影响 那些 对 访问 时 间 敏 感 的 应 用 程序 获取 关 | e。 创建 不 同 的 视图 以 访问 操作 数据 和 
键 数 据 数据 仓库 数据 
无 法 自动 使 用 
实时 数据 和 历 “| 数据 联邦 将 帮助 联邦 数据 仓库 和 生产 系 
史 数据 以 提高 Sat di 统 中 的 数据 以 获得 当前 数据 和 历史 数据 
业务 流程 的 效 的 综合 视图 
率 和 质量 
数据 联邦 能 够 创建 用 户 并 设置 每 种 服务 
ee 开发 人 员 编写 服务 并 在 其 代码 中 区 入 访问 逻辑 ， | 的 访问 权限 。 
ee 无 法 在 代码 中 添加 权限 这 将 使 得 嵌入 在 代码 中 的 业务 逻辑 与 服 
务 访问 权限 分 离 
根据 文章 的 内 容 手工 做 标记 以 便 搜索 这 项 工作 
结构 化 信息 的 | 在 搜索 相似 内 容 时 使用 搜索 引擎 执 行 关键 字 搜 | 自动 根据 文档 的 内 容 对 文档 进行 分 关 并 
单一 解决 方案 | 安 而 非 基 于 内 容 的 搜索 关键 字 搜 索 将 显示 在 不 | 以 自然 语言 搜索 包含 相似 文本 的 文档 
同文 档 内 容 中 所 有 与 关键 字 匹 配 的 结果 
a DI 套件 提供 以 下 选择 : 
全 六 生生 局 | 每 个 可 风 公司 生成 它们 自己 的 报告。 。 将 所 有 数据 复制 到 中 心 数据 库 并 创 
i 整合 这 些 报告 不 仅 困难 是 非常 耗 时 建 集合 视图 
@ 联邦 访问 不 同 企业 中 的 数据 
没有 实时 同步 
信息 ， 这 将 对 | 应 用 程序 无 法 获得 数据 源 中 发 生 的 事件 。 人 
使 用 应 用 程序 | 只 接 一 定时 间 间 到 将 数据 变化 更 新 到 中 心 存 信 | 浊 , 二 可 件 的 应用 程 诺 28 提 此 下 化 号 用 
访问 数据 的 用 | 库 中 。 因 此 ， 数 据 并 不 是 最 新 的 数据 
0 到 目标 数据 库 中 








复制 、 联 邦和 ETL 都 是 用 于 集成 数据 的 重要 技术 。 用 户 可 以 通过 复制 功能 实时 地 汇集 分 散在 
各 个 部 门 的 多 个 数据 库 的 数据 ， 企 业 能 够 获取 最 新 的 数据 以 进行 分 析 。 用 户 可 以 使 用 基于 EI 的 
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数据 联邦 来 编写 应 用 程序 ， 无 需 拷贝 数据 即 可 访问 来 自 异 构 数据 源 的 最 新 数据 。 最 后 ，ETL 还 提 
供 抽 取 、 转 换 和 装载 数据 的 技术 ， 从 而 满足 用 户 提取 和 转换 大 量 数 据 的 需要 。Sybase 数据 集成 套 
件 通过 提供 各 种 数据 集成 技术 来 满足 典型 数据 集成 项 目的 需要 。 另 外 ，Sybase DI 给 用 户 提供 了 处 
理 非 结构 化 内 容 所 需要 的 搜索 功能 ， 以 及 无 需 轮 询 即 可 对 数据 库 事件 做 出 实时 响应 的 能 力 。 


本 章 小 结 


在 本 章 内 ， 我 们 着 本 





EE 为 大 家 介绍 了 数据 集成 技术 的 概念 、 发 展 历程 以 及 Oracle、Microsoft、 


IBM、Sybase 等 几 家 大 公司 在 数据 集成 领域 的 解决 方案 与 工具 ， 希 望 通过 本 章 的 内 容 介 绍 ， 读 者 
能 够 对 数据 集成 技术 有 一 个 较为 清楚 明晰 的 认识 ， 为 学 习 后 面 章 节 的 内 容 打 下 基础 。 


174 


第 5 章 


数据 查询 、 分 析 与 建 模 技术 


随 着 当今 各 类 数据 的 数据 量 的 爆炸 式 增长 ， 海 量 数据 的 相关 研究 也 开始 备 受 关注 。 海 量 数据 
的 特点 是 数据 规模 海量 、 数 据 价值 密度 低 、 数 据 类 型 多 样 。 但 在 数据 的 分 析 过 程 中 ， 要 求 能 够 高 
速 有 效 地 对 数据 进行 处 理 ， 因 此 对 数据 的 查询 和 分 析 提出 了 很 高 的 要 求 。 本 章 主要 介绍 海量 数据 
的 查询 、 分 析 与 建 模 技术 。 首 先 通过 对 数据 查询 、 分 析 和 建 模 的 各 项 技术 以 及 发 展 进行 相应 的 介 
绍 ， 建 立 数据 查询 、 分 析 和 建 模 的 概念 。 随 后 对 世界 上 可 以 有 效 地 进行 数据 查询 、 分 析 和 建 模 的 
工具 进行 介绍 ， 使 得 读者 对 于 海量 数据 查询 、 分 析 与 建 模 有 更 进一步 的 了 解 。 





数据 查询 、 分 析 与 建 模 技术 介绍 


本 节 主 要 对 数据 查询 、 分 析 与 建 模 技术 进行 介绍 。 数 据 查询 即 为 数据 检索 ， 针 对 海量 数据 ， 
对 用 户 或 企业 所 要 求 的 数据 进行 查询 ， 并 返回 结果 。 数 据 分 析 即 对 海量 数据 进行 分 析 处 理 ， 总 结 
数据 中 所 蕴含 的 各 种 规律 ， 使 得 海量 数据 的 价值 得 以 体现 。 数 据 建 模 是 根据 数据 的 特点 对 数据 的 
存储 形式 及 结构 进行 建 模 ， 使 得 数据 的 存储 能 够 更 好 地 适应 需求 ， 加 快 数据 的 处 理 速度 。 


5.1.1 数据 查询 





海量 数据 查询 技术 即 为 海量 数据 检索 技术 ， 对 数据 进行 检索 ， 方 便 用 户 快速 有 效 地 找到 用 户 


需要 的 数据 。 
1. 海量 数据 查询 的 发 展 


海量 数据 是 指 巨大 的 、 浩 瀚 的 数据 。 随 着 信息 化 程度 的 提高 ， 每 一 个 现代 人 无 不 在 充分 感受 

















数据 应 用 带 来 的 巨大 变化 。 数 据 已 


原始 的 形式 逐渐 丰富 为 图 像 、 声 音 、 视 频 等 。 现 在 ， 在 许多 


行业 中 都 需要 操作 海量 数据 ， 如 电 商 、 物 联网 以 及 其 他 部 门 。 这 些 部 门 的 数据 至 少 达 到 了 TB 级 。 
在 数字 时 代 ， 海 量 数据 的 发 展 需要 解决 三 个 问题 : 海量 数据 的 存储 、 海 量 数 据 的 搜索 以 及 商 


业 智 能 。 


(1) 海量 数据 的 存储 

数据 中 蕴藏 着 企业 的 财富 ， 但 由 于 数据 的 增长 速度 太 快 ， 因 此 首先 要 解决 的 是 海量 数据 的 存 
储 问题 。 这 种 存储 是 企业 信息 化 的 基础 架构 ， 更 多 地 定位 在 硬件 方面 。 随 着 数据 量 的 激增 ， 客 观 
上 逼迫 企业 必须 实施 海量 存储 的 解决 方案 ， 海 量 存储 设备 的 不 断 更 新 为 解决 此 问题 提供 了 可 能 。 
海量 数据 的 存储 相关 技术 内 容 已 经 在 前 几 章 介 绍 过 ， 这 里 不 再 獒 述 。 


(2) 海量 数据 的 搜索 

如 今 ， 海 量 数据 的 存储 已 经 提出 了 多 种 方案 ， 包 括 众 多 云 计算 的 开源 项 目 。 海 量 数据 的 搜索 
已 经 成 为 制约 信息 化 进一步 深化 的 瓶颈 。 目 前 具有 一 定 信息 化 程度 的 企业 都 有 自己 的 数据 库 ， 而 
利用 数据 库 都 可 以 实现 查询 。 这 就 引出 了 一 个 “时 间 成 本 ”的 问题 。 当 数据 量 达 到 一 定 级 别 ， 查 
询 条 件 达 到 一 定数 量 ， 同 时 有 多 人 查询 时 ， 要 从 一 个 数据 库 中 找到 自己 需要 的 数据 通常 就 会 花费 
较 长 的 时 间 ， 如 果 每 天 有 大 量 时 间 花 在 数据 库 的 搜索 上 ， 那 就 将 造成 高 额 的 时 间 成 本 。 而 如 果 要 
提高 数据 库 的 查询 速度 ， 就 必须 对 数据 库 进 行 大 量 的 索引 配置 并 对 硬件 进行 大 幅度 升级 ， 这 样 又 
会 造成 设备 成 本 的 提高 。 因 此 ， 从 应 用 的 角度 看 ， 迫 切 需 要 一 些 新 技术 来 解决 海量 数据 的 快速 搜 
索 问题 。 而 海量 数据 存储 的 复杂 性 为 海量 数据 的 搜索 提高 了 难度 。 实 际 搜索 过 程 中 要 进行 海量 数 
据 搜索 不 得 不 面 对 复 杂 的 存储 环境 ， 庞大 的 网 络 环境 ， 多 样 的 存储 介质 ， 不 同类 型 、 不 同 格式 的 
存储 平台 等 。 

(3) 商业 智能 

商业 智能 是 指 一 种 能 力 ， 通 过 智能 地 使 用 企业 的 数据 财产 来 制定 更 好 的 商务 决策 。 各 种 企业 
的 决策 人 员 以 企业 中 的 数据 仓库 〈Data Warehouse) 为 本 ， 经 由 各 式 各 样 的 查询 分 析 工 具 
(Query/Report Tools)、 联 机 分 析 处 理 (OLAP) 工具 ， 或 是 数据 挖掘 (Data Mining) 工具 加 上 决 
策 规划 人 员 的 行业 知识 〈Industry Knowledge)， 从 数据 仓库 中 获得 有 利 的 信息 ， 进 而 帮助 企业 获 
利 ， 提 高 生产 力 与 癌 争 力 。 


2. 海量 数据 查询 的 难点 

能 干扰 和 破坏 企业 现 有 的 数据 结构 和 常规 业务 流程 。 

必须 实现 多 约束 条 件 、 多 数据 源 、 多 数据 格式 、 多 人 同时 的 高 效 搜索 。 
必须 实现 对 硬件 成 本 的 良好 控制 。 

简化 相关 开发 和 性 能 优化 过 程 。 


从 国内 企业 目前 的 信息 化 现状 ， 特 别 是 数据 应 用 的 状况 来 看 ， 海 量 数据 查询 已 经 是 信息 化 进 
一 步 深入 的 瓶颈 ， 也 是 未 来 商业 智能 发 展 的 入 门 关 。 推 动 海量 数据 查询 技术 已 经 不 是 靠 少数 厂商 
销售 他 们 的 软件 、 硬 件 能 解决 的 问题 了 , 用户 的 参与 和 认可 已 经 成 为 必需 。 要 发 展 海量 查询 技术 ， 
可 以 借鉴 其 他 重要 技术 的 推广 和 普及 方式 ， 比 如 开放 源 代码 、 建 立 开 源 社区 。 开 放 源 代码 之 所 以 
能 迅速 普及 ， 要 归功 于 开放 源 代码 协会 。 这 些 开源 组 织 和 社区 是 理论 与 技术 发 展 的 重要 途径 ， 也 
是 目前 技术 人 员 最 为 青睐 的 发 展 方式 。 
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5.1.2 ”数据 分 析 


目前 ， 社 交 网 站 、 电 子 商 务 等 网 络 服务 的 迅速 发 展 ， 使 得 网 络 服务 及 网 络 信息 规模 裂变 式 增 
长 ， 这 样 就 会 对 大 规模 数据 的 处 理 带 来 了 很 大 的 挑战 。 金 融 业 、 零 售 业 、 医 疗 、 电 信 、 航 空 等 领 
域 也 会 产生 大 量 的 数据 ， 在 数据 挖掘 中 如 何 处 理 海量 数据 ， 提 高 挖掘 质量 和 效率 ， 是 迫切 需要 解 
决 的 问题 。 数 据 固 有 的 记录 历史 信息 的 能 力 ， 使 得 企业 认识 到 ， 大 量 数据 中 ， 尤 其 是 历史 数据 中 ， 
是 隐藏 着 许多 有 价值 的 东西 的 。 通 过 对 历史 数据 的 分 析 ， 能 够 对 现在 和 未 来 的 业务 发 展 有 很 大 的 
帮助 。 这 种 分 析 需 要 两 点 的 支持 ， 一 是 对 海量 数据 的 规整 和 处 理 ， 数 据 的 量 越 多 ， 数 据 的 种 类 越 
丰富 ， 其 提供 的 结果 越 准确 、 越 详细 。 二 是 有 数据 统计 分 析 的 方法 ， 根 据 分 析 业 务 内 容 的 不 同 ， 
使 用 的 分 析 方法 也 会 有 所 不 同 ， 常 用 的 几 种 分 析 方法 包括 : 分 类 、 聚 合 、 关 联 等 。 

数据 分 析 最 重要 的 领域 为 数据 挖掘 。 针 对 海量 数据 的 增长 速度 ， 许 多 国内 外 从 事 海量 数据 挖 
掘 、 知 识 发 现 领 域 的 相关 人 士 进行 了 深入 的 研究 。 海 量 数据 的 存储 和 处 理 能 力 本 身 就 对 数据 挖掘 
或 机 器 学 习 提出 了 很 高 的 要 求 ，Google 在 这 方面 做 的 工作 很 有 意义 。Google 公司 提出 的 
MapReduce 是 可 以 在 大 型 计算 机 集群 上 对 海量 数据 进行 并 发 处 理 的 一 种 框架 模型 。 它 首先 通过 设 
定 一 个 Map 函数 把 输入 数据 变换 成 相应 的 键 - 值 对 ,然后 通过 自 定义 的 Reduce 函数 聚集 起 来 具有 
同样 键 的 值 ， 并 输出 结果 。 现 实 世界 中 大 都 可 以 用 此 模型 来 表示 对 海量 数据 的 处 理 。 另 外 ， 并 行 
数据 库 是 数据 库 技术 与 并 行 技术 结合 的 产物 ， 并 被 视 为 一 种 高 性 能 的 数据 库 系 统 ， 它 能 大 大 提高 
关系 型 数据 库 中 处 理 海量 数据 的 效率 。 


5.1.3 ”数据 建 模 


数据 模型 是 对 信息 系统 中 客观 事物 及 其 联系 的 数据 描述 ， 它 是 复杂 的 数据 关系 之 间 的 一 个 整 
体 逻 辑 结构 图 。 数据 模型 不 但 提供 了 整个 组 织 藉以 收集 数据 的 基础 , 它 还 与 组 织 中 其 他 模型 一 起 ， 
精确 恰当 地 记录 业务 需求 ， 并 支持 信息 系统 不 断 地 发 展 和 完善 ， 以 满足 不 断 变 化 的 业务 需求 。 对 
于 任何 一 个 信息 系统 来 说 ， 数 据 模型 都 是 它 的 核心 和 灵魂 。 

数据 建 模 是 一 种 用 于 定义 和 分 析 数 据 的 要 求 和 其 需要 的 相应 支持 的 信息 系统 的 过 程 。 因 此 ， 
数据 建 模 的 过 程 中 ， 涉 及 的 专业 数据 建 模 工 作 ， 与 企业 的 利益 和 用 户 的 信息 系统 密切 相关 。 

从 需求 到 实际 的 数据 库 ， 有 三 种 不 同 的 类 型 。 用 于 信息 系统 的 数据 模型 作为 一 个 概念 数据 模 
型 ， 本 质 上 是 一 组 记录 数据 要 求 的 最 初 的 规范 技术 。 数 据 首先 适合 企业 的 最 初 要 求 ， 然 后 被 转变 
为 一 个 逻辑 数据 模型 ， 该 模型 可 以 在 数据 库 中 的 数据 结构 概念 模型 中 实现 。 一 个 概念 数据 模型 的 
实现 可 能 需要 多 个 逻辑 数据 模型 。 数 据 建 模 中 的 最 后 一 步 是 确定 逻辑 数据 模型 到 物理 数据 模型 中 
对 数据 、 访 问 、 性 能 和 存储 的 具体 要 求 。 数 据 建 模 定义 的 不 只 是 数据 元 素 ， 也 包括 它们 的 结构 和 
它们 之 间 的 关系 。 
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数据 查询 、 分 析 与 建 模 技术 研究 现状 


本 节 主 要 对 数据 查询 、 分 析 与 建 模 技术 的 研究 现状 进行 探讨 。 首 先 介绍 的 是 并 行 处 理 技术 ， 
海量 数据 的 处 理 仅仅 依靠 单一 的 处 理 器 进行 处 理 是 远 远 不 够 的 ， 而 海量 数据 处 理 中 目前 最 为 突出 
的 技术 即 为 并 行 处 理 技术 ， 众 多 的 海量 数据 处 理工 具 都 用 到 了 并 行 处 理 的 理念 。 并 行 处 理 技术 使 
得 大 规模 的 海量 数据 处 理 变 得 快速 高 效 。 之 后 针对 数据 查询 、 分 析 与 建 模 给 出 了 多 种 技术 的 介绍 。 
着 重 对 OLAP 以 及 数据 挖掘 技术 进行 了 介绍 。 








5.2.1 ”并行 处 理 


并 行 处 理 是 计算 机 系统 中 能 同时 执行 两 个 或 两 个 以 上 任务 的 一 种 计算 方法 。 处 理 机 可 同时 工 
作 于 同一 程序 的 不 同方 面 。 并 行 处 理 的 主要 目的 是 节省 大 型 和 复杂 问题 的 解决 时 间 。 为 使 用 并 行 
处 理 ， 首 先 需要 对 程序 进行 并 行 化 处 理 ， 也 就 是 说 将 工作 各 部 分 分 配 到 不 同 处 理 机 中 。 正 是 这 种 
使 用 多 处 理 机 来 实现 的 方式 ， 促 成 了 所 谓 的 “并 行 计 算 机 ”的 出 现 。 

当前 流行 的 高 性 能 并 行 机 体系 结构 分 为 4 类 : 对 称 多 处 理 共享 存储 并 行 机 (Symmetric 
Multi-Processing，SMP)、 分 布 共享 存储 并 行 机 (Distributed Shared Memory，DSM)、 大 规模 并 行 
计算 机 (Massively Parallel Processing, MPP) 和 工作 站 (微机 ) 机 群 (Cluster Of Workstation, COW)。 
随 着 科技 的 进步 和 发 展 ,结构 分 析 问 题 正 日 益 向 非 线性 、 大 规模 方向 发 展 ,MPP 已 是 当今 超级 计 
算 机 的 主要 结构 之 一 。 

MPP 提供 了 一 种 进行 系统 扩展 的 方式 ， 它 由 多 个 SMP (Symmetric Multi-Processor) 服务 器 
通过 一 定 的 节点 互联 网 络 进行 连接 ， 协 同 工 作 ， 完 成 相同 的 任务 ， 从 用 户 的 角度 来 看 是 一 个 服务 
器 系统 。 其 基本 特征 是 由 多 个 SMP 服务 器 (每 个 SMP 服务 器 称 节点 ) 通过 节点 互联 网 络 连 接 而 
成 ， 每 个 节点 只 访问 自己 的 本 地 资源 (内存 、 存 储 等 )， 是 一 种 完全 无 共享 (Share Nothing ) 结构 ， 
因而 扩展 能 力 最 好 , 理论 上 其 扩展 无 限制 。 目 前 业界 对 节点 互联 网 络 暂 无 标准 , 如 NCR 的 Bynet， 
IBM 的 SPSwitch， 它 们 都 采用 了 不 同 的 内 部 实现 机 制 。 但 节点 互联 网 仅 供 MPP 服务 器 内 部 使 用 ， 
对 用 户 而 言 是 透明 的 。 

在 MPP 系统 中 ， 每 个 SMP 节点 也 可 以 运行 自己 的 操作 系统 、 数 据 库 等 。 每 个 节点 内 的 CPU 
不 能 访问 另 一 个 节点 的 内 存 。 节 点 之 间 的 信息 交互 是 通过 节点 互联 网 络 实现 的 ， 这 个 过 程 一 般 称 
为 数据 重 分 配 (Data Redistribution )。 

MPP 服务 器 需要 一 种 复杂 的 机 制 来 调度 和 平衡 各 个 节点 的 负载 和 并 行 处 理 过 程 。 目前 一 些 基 
于 MPP 技术 的 服务 器 往往 通过 系统 级 软件 (如 数据 库 ) 来 屏蔽 这 种 复杂 性 。 举 例 来 说 ，NCR 的 
Teradata 就 是 基于 MPP 技术 的 一 个 关系 数据 库 软 件 ， 基 于 此 数据 库 来 开发 应 用 时 ， 不 管 后 台 服 务 
器 由 多 少 个 节点 组 成 ， 开 发 人 员 所 面 对 的 都 是 同一 个 数据 库 系统 ， 而 不 需要 考虑 如 何 调度 其 中 某 
几 个 节点 的 负载 。 

使 用 MPP 使 多 台 计 算 机 同时 处 理 同一 问题 的 方法 主要 有 两 种 : 
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(1) 无 共享 并 行 体系 结构 

无 共享 (shared nothing) 体系 结构 意味 着 每 台 计 算 机 都 有 它 自己 的 CPU、 内 存 和 磁盘 。 计 算 
机 通过 高 速 互 联网 络 被 连接 在 一 起 ， 当 处 理 查询 时 ， 每 个 节点 处 理 其 本 地 表 中 的 行 ， 然 后 将 节点 
的 部 分 结果 回 传 给 协调 程序 节点 。 协 调 程序 将 来 自 所 有 节点 的 所 有 结果 合并 成 最 终结 果 集 。 节 点 
不 一 定 是 独立 的 计算 机 ， 在 单个 计算 机 上 可 以 存在 多 个 分 区 。 如 图 5.1 所 示 为 无 共享 并 行 体系 结 
构 。 


高 速 局 域 网 











节点 1 节点 2 节点 3 
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5.1 无 共享 并 行 体系 结构 图 








(2) 分 布 式 锁 (共享 磁盘 并 行 体系 结构 

共享 磁盘 体系 结构 使 用 锁 管 理 器 在 计算 机 之 间 做 出 仲裁 , 这 些 计算 机 都 访问 一 个 公共 磁盘 池 。 
这 种 体系 结构 在 原理 上 是 有 缺陷 的 ， 因 为 当 节点 数 增加 时 ， 和 群集 会 过 多 集中 在 锁 请 求 中 。 如 图 5.2 
所 示 为 共享 磁盘 并 行 体系 结构 。 








| ! 1 | 


磁盘 阵列 
图 5.2 共享 磁 盘 并 行 体系 结构 图 
该 环境 中 的 数据 库 访问 要 求 每 个 节点 都 在 共享 磁盘 上 请 求 一 块 数据 。 如 果 男 一 个 节点 已 经 锁 
定 该 数据 准备 更 新 ， 那 么 正在 请 求 的 节点 必须 等 待 正在 更 新 的 节点 完成 。 这 种 环境 容易 发 生 “ 死 
锁 ” 的 情况 。 节 点 1 锁定 资源 A 并 请 求 资源 B。 节点 2 锁定 资源 B 并 请 求 对 资源 A 的 锁定 。 
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实战 大 数据 


这 两 个 节点 都 不 释放 它们 的 锁 ， 所 以 它们 一 直 等 待 下 去 。 


5.2.2 海量 数据 查询 与 搜索 


在 面 对 海 量 数据 时 ， 用 户 关心 的 是 如 何 从 其 中 查询 出 对 自己 有 价值 的 信息 而 非 海 量 数据 本 
身 ， 如 何 使 查询 海量 数据 的 性 能 更 为 高 效 是 目前 国内 外 数据 库 系 统 研究 的 热点 问题 。 在 海量 数据 
查询 优化 策略 有 
®@ 查询 语句 优化 。 对 查询 语句 进行 变换 以 减少 语句 执行 开销 。 
日 规则 优化 。 根据 启 发 式 规则 选择 执行 策略 。 但 两 种 方式 存在 不 足 : 当 数 据 量 超出 系统 软 硬 
件 处 理 能 力 时 ， 通 过 优化 语句 很 难 提升 查询 性 能 。 

@ 物理 优化 。 选 择 合适 的 存储 策略 进行 的 优化 ， 但 是 对 语句 的 执行 效率 考虑 不 足 。 

@ 代价 估算 优化 。 对 已 经 存在 的 优化 策略 进行 代价 估算 ， 选 择 最 小 的 执行 代价 策略 。 这 种 方 
式 的 问题 在 于 计算 最 小 执行 代价 耗费 时 间 过 多 且 实用 性 不 高 。 


目前 的 海量 数据 查询 性 能 低下 大 都 是 由 于 数据 的 规模 超出 系统 的 软 硬 件 处 理 能 力 。 

这 里 讨论 利用 多 数据 库 中 间 件 插件 技术 在 存储 海量 数据 时 将 数据 划分 存储 到 多 个 自治 的 数据 
库 中 ， 在 一 维 上 降低 数据 规模 并 优化 查询 语句 ， 在 本 地 数据 库 中 运用 表 分 区 技术 ， 将 海量 数据 划 
分 存储 到 多 个 表 分 区 中 ， 通 过 增加 维度 降低 海量 数据 的 规模 ; 利用 分 表 措施 将 分 区 表 分 成 多 个 子 
表 ， 再 次 降低 海量 数据 的 规模 。 通 过 对 海量 数据 的 三 维 划 分 、 优 化 查询 语句 以 及 降低 数据 的 扫描 
规模 提高 了 海量 数据 的 查询 性 能 。 


1. 基于 数据 划分 的 海量 数据 查询 


数据 划分 是 指 按照 某 种 规则 将 数据 分 布 到 特定 范围 内 ， 使 得 在 对 数据 进行 查询 时 系统 并 行 处 
理 能 力 提 高 ， 以 此 降低 查询 的 响应 时 间 ， 提 高 数据 库 的 查询 性 能 。 数 据 划分 对 于 能 否 充分 利用 系 
统 的 CPU 和 带宽 资源 , 减少 通信 开销 , 平衡 系统 负载 和 减少 计算 量 , 最 佳 的 发 挥 并 行 性 和 系统 性 
能 至 关 重 要 。 

(1) 多 数据 库 并 行 处 理 技术 

多 数据 库 并 行 处 理 技术 是 以 中 间 件 为 技术 支撑 ， 对 海量 数据 进行 合理 存储 ， 高 效 查 询 的 一 种 
技术 。 多 数据 库 并 行 处 理 结构 如 图 5.3 所 示 。 

当 用 户 提 出 加 载 请 求 时， 通过 负载 均衡 系统 将 请 求 均衡 的 分 发 给 并 行 加 载 服务 ， 并 行 加 载 服 
务 首先 读 取 全 局 数据 字典 中 的 元 数据 ， 通 过 数据 划分 器 和 表 加 载 器 将 数据 加 载 到 底层 数据 库 中 ， 
当 用 户 提出 查询 服务 时 ， 系 统 将 请 求 发 给 并 行 查询 服务 ， 并 行 查询 服务 首先 读 取 全 局 数据 字典 用 
于 获得 多 数据 库 的 配置 信息 ， 然 后 通过 查询 语句 改写 服务 优化 查询 语句 并 发 送 给 查询 服务 器 ， 用 
以 完成 数据 的 查询 功能 。 

多 数据 库 并 行 查询 技术 通过 中 间 层 组 件 对 查询 语句 进行 分 析 、 优 化 ， 根 据 分 析 的 结果 将 查询 
分 解 或 者 复制 为 多 个 等 价 的 子 查询 ， 将 多 个 子 查 询 语句 在 相应 的 数据 库 节 点 上 执行 ， 它 降低 了 每 
个 本 地 数据 库 的 查询 规模 ， 并 实现 查询 的 本 地 化 并 行 查询 ， 提 高 了 数据 的 查询 效率 。 
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底层 数据 库 


图 5.3 多 数据 库 并 行 处 理 结构 图 


(2) 表 分 区 

针对 底层 数据 库 数据 查询 规模 大 的 问题 ， 对 其 特定 业务 的 查询 条 件 属 性 做 表 分 区 处 理 ， 以 提 
高 查询 的 性 能 。 经 表 分 区 后 ， 数 据 在 数据 库 中 按 一 定 的 规律 存放 。 

当 进 行 数据 查询 时 , 系统 只 需 扫描 存放 数据 的 响应 表 分 区 , 因而 查询 扫描 规模 可 以 大 大 降低 ， 
数据 查询 性 能 也 会 得 到 相应 的 提高 。 当 分 区 的 规模 较 大 时 , 在 海量 数据 库 中 无 法 有 效 降 低 数据 规 
模 ， 这 样 的 数据 划分 无 意义 ; 当 用 户 分 区 规模 较 小 时 ， 在 进行 多 数据 查询 时 ， 会 涉及 多 个 表 分 区 ， 
查询 性 能 也 难以 提高 。 因 此 表 分 区 的 粒度 需要 优先 考虑 两 方面 ， 一 是 数据 的 存储 规模 ， 二 是 用 户 
的 查询 粒度 。 

(3) 分 表 技术 

e@ 原理 

在 分 区 表 的 基础 上 ， 将 表 根 据 所 查找 的 属性 字段 划分 成 为 多 个 子 表 ， 利 用 数据 库 的 Union 
ALL 视图 将 需要 查询 的 子 表 动态 地 合并 起 来 ， 使 对 原 表 的 查询 转化 为 对 视图 或 者 子 表 的 查询 ， 以 
此 降低 数据 查询 的 扫描 规模 。 

。 算法 

输入 : 业务 层 提交 给 中 间 层 的 查询 语句 。 

输出 : 语句 改写 后 的 查询 语句 。 

流程 : 

a. 将 业务 层 提交 的 查询 语句 提交 给 语法 分 析 器 ; 通过 语法 分 析 器 截取 where 子 句 后 的 条 件 表 
达 式 。 
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b. 分 析 条 件 表达 式 中 是 否 含有 与 分 表 字 段 有 关 的 条 件 。 当 不 包含 分 表 字段 时 返回 原 语句 ， 算 
法 结束 ; 否则 提取 该 字段 。 

c. 根 据 提取 的 字段 分 析 其 涉及 的 数据 范围 ， 找 到 相对 应 的 视图 或 者 子 表 。 

d. 将 原 语句 中 from 子 句 后 的 原 表 改 为 c 得 到 的 视图 或 者 子 表 ， 此 时 得 到 查询 语句 a。 

e. 去 除 a 中 与 分 表 有 关 字 段 的 条 件 ， 返 回 改写 后 的 查询 语句 ， 算 法 结束 。 


2. 基于 搜索 引擎 的 海量 数据 查询 


众所周知 ， 搜 索引 擎 是 从 互联 网 上 搜寻 信息 的 重要 工具 。 随 着 互联 网 规模 的 不 断 增 大 ， 网 上 
信息 量 的 不 断 增长 ， 搜 索引 擎 的 作用 越 来 越 明显 。 搜 索引 擎 的 技术 基础 是 全 文 检索 技术 。 搜 索引 
擎 从 实现 技术 上 一 般 可 以 分 为 三 类 : 目录 型 、 通 用 型 和 元 搜索 引擎 。 目 录 型 搜索 引擎 通过 人 工 编 
辑 的 网 站 分 类 目录 提供 导航 和 网 站 搜索 ， 元 搜索 引擎 自身 不 维护 数据 ， 而 对 多 个 通用 型 搜索 引擎 
的 检索 结果 进行 融合 与 重新 排序 ， 期 望 为 用 户 提供 更 全 和 更 好 的 检索 服务 ;通用 型 搜索 引擎 通过 
抓 取 Web 网 页 ， 对 抓 取 的 网 页 数据 处 理 、 索 引 ， 为 用 户 提供 检索 服务 。 

搜索 引擎 由 搜索 器 、 索 引 器 、 检 索 器 和 用 户 接口 4 个 部 分 组 成 。 


(1) 搜索 器 (crawl) 

搜索 引擎 使 用 一 种 名 为 “网 络 机 器 人 ”或 “网 络 蜘蛛 ”的 软件 ,遍历 Web 空间 , 扫描 一 定 人 Pp 
地 址 范围 内 的 网 站 ， 并 沿 着 网 络 上 的 链接 从 一 个 网 页 到 另 一 个 网 页 收集 网 页 数据 。 它 为 保证 收集 
的 数据 最 新 ， 还 会 回访 已 收集 过 的 网 页 。 

(2) 索引 器 (index) 

索引 器 的 功能 是 理解 搜索 器 所 搜索 的 信息 ， 从 中 抽取 出 索引 项 ， 用 于 表示 文档 以 及 生成 文档 
库 的 索引 表 。 索 引 器 可 以 使 用 集中 式 索引 算法 或 分 布 式 索 引 算 法 。 当 数据 量 很 大 时 ， 必 须 实 现 即 
时 索引 ， 和 否则 跟 不 上 信息 量 急 剧 增加 的 速度 。 索 引 算法 对 索引 器 的 性 能 〈 如 大 规模 峰值 查询 时 的 
响应 速度 ) 有 很 大 的 影响 。 一 个 搜索 引擎 的 有 效 性 在 很 大 程度 上 取决 于 索引 器 的 质量 。 


(3) 检索 器 (search) 

检索 器 的 功能 是 根据 用 户 的 查询 在 索引 库 中 快速 检索 出 所 需 内 容 。 

随 着 互联 网 的 迅猛 发 展 ， 网 络 信息 的 增加 ， 用 户 要 在 海量 的 数据 信息 里 查找 所 需 信 息 ， 如 果 
没有 强 有 力 的 信息 检索 和 分 析 工 具 几 乎 是 不 可 能 的 。 当 前 使 用 比较 普遍 的 检索 系统 能 部 分 解决 资 
源 发 现 的 问题 ， 但 随 着 网 络 数据 量 急 剧 膨胀 ， 传 统 的 集中 式 信 息 检 索 方 法 在 搜索 性 能 上 已 经 无 法 
满足 用 户 的 要 求 。 当 信息 的 检索 规模 达到 一 定 的 程度 时 ， 必 然 要 采用 分 布 式 的 方法 ， 以 提高 系统 
性 能 。 

分 布 式 数据 检索 技术 的 提出 对 信息 检索 领域 具有 极其 重大 的 意义 。 与 传统 的 信息 检索 技术 相 
比 ， 使 用 分 布 式 数据 检索 技术 的 检索 系统 在 检索 效率 上 有 了 大 幅 的 提高 。 而 如 何 进 一 步 在 分 布 式 
数据 检索 技术 的 基础 上 提高 其 检索 效率 ， 是 一 个 值得 研究 的 课题 。 最 优 搜索 理论 是 二 战 时 期 发 展 
起 来 的 学 科 ， 是 计算 统筹 学 的 分 支 ， 它 研究 在 有 限 的 资源 约束 条 件 下 ， 如 何 分 配 资源 使 得 成 功 搜 
索 到 目标 的 可 能 性 最 大 或 者 资源 的 消耗 最 小 。 利 用 最 优 搜索 理论 对 分 布 式 数据 检索 进行 优化 ， 将 
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提高 系统 的 检索 质量 。 


5.2.3 ”数据 分 析 中 的 OLAP 与 数据 挖掘 技术 


随 着 数据 库 技术 的 广泛 应 用 ， 企 业 信息 系统 产生 了 大 量 的 数据 ， 如 何 从 这 些 海量 数据 中 提取 
对 企业 决策 分 析 有 用 的 信息 成 为 企业 决策 管理 人 员 所 面临 的 重要 难题 .传统 的 企业 数据 库 系 统 ( 面 
向 企业 事务 处 理 的 信息 系统 ) 即 联机 事务 处 理 系 统 (On-line Transaction Processing，OLTP) 作为 
事务 管理 的 手段 ， 主 要 用 于 企业 事务 处 理 ， 但 它 对 分 析 处 理 的 支持 一 直 不 能 令 人 满意 。 因 此 ， 人 
们 逐渐 尝试 对 OLTP 数据 库 中 的 数据 进行 再 加 工 ， 形 成 一 个 综合 的 、 面 向 分 析 的 、 更 好 的 支持 决 
策 制 定 的 决策 支持 系统 (Decision Support System，DSS )。 企 业 目前 的 信息 系统 的 数据 一 般 由 
RDBMS 管理 ， 但 决策 分 析 数据 库 和 联机 事务 处 理 数据 库 在 数据 来 源 、 数 据 内 容 、 数 据 模式 、 服 
务 对 象 、 访 问 方式 、 事 务 管理 乃至 物理 存储 等 当面 都 有 不 同 的 特点 和 要 求 ， 因 此 直接 在 联机 事务 
处 理 数据 库 上 建立 DSS 是 不 合适 的 。 数 据 仓库 (Data Warehouse 技术 就 是 在 这 样 的 背景 下 发 展 
起 来 的 。 数 据 仓库 的 概念 提出 于 20 世纪 80 年 代 中 期 ，20 世纪 90 年 代 ， 数 据 仓库 已 从 早期 的 探 
索 阶 段 走向 试用 阶段 。 业 界 公认 的 数据 仓库 概念 的 创始 人 W.H.Inmon 在 《Building the Data 
Warehouse》 一 书 中 对 数据 仓库 的 定义 是 :“ 数 据 仓库 是 支持 管理 决策 过 程 的 、 面 向 主题 的 、 集 成 
的 、 随 时 间 变化 的 持久 的 数据 集合 。 ”构建 数据 仓库 的 过 程 就 是 根据 预先 设计 好 的 逻辑 模式 从 分 布 
在 企业 内 部 各 处 的 联机 事务 处 理 数据 库 中 提取 数据 ， 并 经 过 必要 的 转换 最 终 形成 全 企业 统一 模式 
的 数据 的 过 程 。 当 前 数据 仓库 的 核心 ( 即 数 据 仓 库 数据 库 ) 是 RDBMS 管理 下 的 一 个 数据 库 系 统 。 
数据 仓库 中 数据 量 巨大 ， 为 了 提高 性 能 ，RDBMS 一 般 也 采取 一 些 提高 效率 的 措施 ， 比 如 采用 并 
行 处 理 结构 、 新 的 数据 组 织 、 查 询 策略 、 索 引 技术 等 。 

联机 分 析 处 理 (On-line Analytical Processing, OLAP ) 的 概念 最 早 由 关系 数据 库 之 父 E.F. Codd 
于 1993 年 提出 。Codd 认为 联机 事务 处 理 (OLTP) 已 经 不 能 满足 终端 用 户 对 数据 库 查 询 分 析 的 要 
求 ，SQL 对 大 数据 库 的 简单 查询 也 不 能 满足 用 户 分 析 的 需求 。 用 户 的 决策 分 析 需 要 对 关系 数据 库 
进行 大 量 计 算 才能 得 到 结果 ， 而 查询 的 结果 并 不 能 满足 决策 者 提出 的 需求 。 因 此 ，Codd 提出 了 多 
维 数据 库 和 多 维 分 析 的 概念 ， 即 OLAP。 

OLAP 技术 与 关系 数据 库 结合 已 经 成 为 一 种 趋势 , 像 Oracle 公司 和 Microsoft 公司 都 在 这 方面 
做 了 相应 的 工作 。Oracle 公司 从 Oracle 9i 开始 ， 在 其 数据 库 管理 系统 中 加 入 了 OLAP 功能 ， 实 现 
了 把 多 维 数据 库 保 存在 关系 型 数据 库 当 中 的 承诺 。 成 为 业界 第 一 个 实现 这 种 功能 的 产品 。OLAP 
技术 终于 可 以 和 关系 型 数据 库 完 全 融合 在 一 起 了 ， 在 其 以 后 的 数据 库 版 本 中 ， 这 个 特性 更 是 发 挥 
得 淋 沉 尽 致 。Microsoft 公司 的 Analysis Services 也 是 对 数据 仓库 和 OLAP 的 支持 。 

1. OLAP 的 定义 和 特征 

联机 分 析 处 理 是 一 类 软件 技术 ， 它 使 分 析 人 员 、 管 理 人 员 通 过 对 信息 的 多 种 可 能 的 观察 角度 
进行 快速 、 一 致 和 交互 性 的 存 取 以 获得 对 信息 的 深入 理解 ， 这 些 信 息 从 原始 数据 转换 而 来 ， 反 映 
了 用 户 所 能 理解 的 企业 的 真实 的 “ 维 ”。 目 前 所 指 的 联机 分 析 处 理 ， 是 对 数据 的 一 系列 交互 的 查询 
过 程 ， 这 些 查 询 过 程 要 求 对 数据 进行 多 层次 、 多 阶段 的 分 析 处 理 ， 获 得 高 度 归 纳 的 信息 。 归 纳 信 
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息 要 从 最 底层 的 明细 数据 开始 ， 经 过 多 个 层次 、 多 个 阶段 的 数据 处 理 ， 包 括 数据 汇总 、 整 理 、 归 
纳 、 排 除 奇异 数据 样本 等 环节 ， 最 终 得 到 用 户 所 需要 的 经 过 归纳 抽象 的 信息 。OLAP 力图 处 理 数 
据 仓库 中 浩瀚 如 烟 的 数据 ， 并 将 之 转化 为 有 用 的 信息 ， 从 而 实现 对 数据 的 归纳 、 分 析 和 处 理 ， 帮 
助 企业 完成 决策 。OLAP 支持 最 终 用 户 进行 动态 多 维 分 析 ， 其 中 包括 跨 维 、 在 不 同 的 层次 之 间 跨 
成 员 的 计算 和 建 模 。 

20 世纪 80 年 代 ，E. F.Codd 提出 了 OLAP 数据 库 的 十 二 条 准则 ， 被 广泛 作为 管理 公司 日 
常事 务 的 数据 库 标准 。1993 年 ，E. F Codd 规定 了 OLAP 的 如 下 十 二 条 准则 : 


OLAP 模型 必须 提供 多 维 概念 视图 
透明 性 准则 

存 取 能 力 准则 

稳定 的 报表 性 能 

智能 化 的 客户 / 服务 器 体系 结构 
维 的 等 价 性 和 通用 性 

动态 稀疏 数据 矩阵 处 理 

支持 多 用 户 

支持 非 限定 的 交叉 维 操作 

能 直接 访问 数据 

具有 随机 灵活 的 报表 机 制 
提供 不 受 限制 的 维和 聚集 级 别 


然而 E. F Codd 提出 的 OLAP 的 十 二 条 准则 并 没有 得 到 广泛 的 承认 ， 大 多 数 专家 认为 OLAP 
并 不 需要 遵守 这 些 准则 ， 准 则 只 是 提供 了 一 种 数据 技术 的 观点 ， 而 不 是 基准 。 但 是 术语 OLAP 被 
用 来 很 好 地 描述 为 推动 公司 决策 制定 、 分 析 而 设计 的 数据 库 。OLAP 通常 是 指使 得 数据 仓库 的 数 
据 能 被 很 容易 被 访问 的 工具 。 

OLAP 技术 主要 有 两 个 特点 : 一 是 在 线性 (On-line), 表现 为 对 用 户 请 求 的 快速 响应 和 交互 操 
作 ; 二 是 多 维 分 析 (Multi-Analysis)， 这 也 是 OLAP 技术 的 核心 所 在 。 

OLAP 的 最 显著 特征 是 它 能 提供 数据 的 多 维 概念 视图 (Multi-Dimensional )。 在 OLAP 数据 模 
型 中 ， 多 维 信息 被 抽象 为 一 个 立方 体 (Cube)， 它 包括 维 (Dimension) 和 度量 (Measure )。 维 就 
是 我 们 所 说 的 观察 角度 ， 而 度量 则 是 上 面 说 的 指标 值 。 多 维 结构 是 OLAP 的 核心 ，OLAP 展现 在 
用 户 面前 的 就 是 一 幅 幅 多 维 视图 。 这 些 多 维 视图 能 使 最 终 用 户 从 多 角度 、 多 侧面 、 多 层次 直观 地 
考察 数据 仓库 中 的 数据 ， 从 而 深入 地 理解 包含 在 数据 中 的 信息 及 其 内 涵 。 以 多 维 视图 的 形式 把 数 
据 提 供给 用 户 ， 既 迎合 了 人 的 思维 模式 又 减少 了 概念 上 的 混淆 ， 同 时 降低 了 出 现 错误 解释 的 可 能 
性 。 

OLAP 的 第 二 个 特性 是 它 能 快速 响应 用 户 的 分 析 需 求 .一 般 认为 OLAP 系统 应 在 几 秒 内 对 用 
户 的 分 析 请 求 做 出 响应 。 如 果 终 端 用 户 在 30 秒 内 没有 得 到 系统 响应 就 会 变 得 不 耐烦 , 因而 可 能 失 
去 分 析 主 线索 ， 影 响 分 析 质 量 。 对 于 大 量 的 数据 分 析 要 达到 这 个 速度 并 不 容易 ， 因 此 就 更 需要 一 
些 技术 上 的 支持 ， 如 专门 的 数据 存储 格式 、 大 量 的 事先 运算 、 特 别 的 硬件 设计 等 。 





184 


第 5 章 数据 查询 、 分 析 与 建 模 技术 


OLAP 的 第 三 个 特征 是 它 的 分 析 功 能 (Analysis)。OLAP 系统 应 该 能 处 理 与 应 用 有 关 的 任何 
逻辑 分 析 和 统计 分 析 。 尽 管 系统 可 以 事先 编程 ， 但 并 不 意味 着 系统 定义 了 所 有 的 应 用 。 在 应 用 
OLAP 的 过 程 中 ， 用 户 无 需 编程 就 可 以 定义 新 的 专门 计算 ， 将 其 作为 分 析 的 一 部 分 ， 且 以 用 户 所 
希望 的 方式 给 出 报告 。 用 户 可 在 OLAP 平台 上 进行 数据 分 析 ， 也 可 连接 到 其 他 外 部 分 析 工 具 上 ， 
如 时 间 序 列 分 析 工 具 、 成 本 分 析 工 具 、 意 外 报警 、 数 据 挖 掘 等 。OLAP 的 基本 分 析 操 作 有 切片 
(CSlice)、 切 块 (Dice)、 钻 取 (Drill-down)、 卷 取 (Dril-up) 及 旋转 (Rotate )。 

OLAP 的 第 四 个 特征 是 它 的 信息 性 (Infommation)。 无 论 数据 量 有 多 大 ， 也 不 管 数 据 存储 在 何 
处 ，OLAP 系统 应 能 及 时 获得 信息 ， 并 且 管 理 大 容量 信息 。 这 里 有 许多 因素 需要 考虑 ， 如 数据 的 
可 复制 性 、 可 利用 的 磁盘 空间 、OLAP 产品 的 性 能 以 及 与 数据 仓库 的 结合 度 等 。 

OLAP 是 针对 特定 问题 的 联机 数据 访问 和 分 析 。 通 过 对 信息 的 很 多 种 可 能 的 观察 形式 进行 快 
速 、 稳 定 一 致 和 交互 性 的 存 取 ， 人 允许 管理 决策 人 员 对 数据 进行 深入 观察 。 为 了 对 OLAP 技术 有 更 
深入 的 了 解 ， 以 下 主要 介绍 在 OLAP 中 常用 的 一 些 基本 概念 。 

(1) 变量 

变量 是 数据 的 实际 意义 ， 即 描述 数据 “是 什么 ”。 一 般 情况 下 ， 变 量 总 是 一 个 数值 度量 指标 ， 
例如 入 数 、 单 价 、 销 售 量 等 都 是 变量 。 

(2) 维 

维 是 人 们 观察 数据 的 特定 角度 。 例 如 ， 企 业 常 常 关心 产品 销售 数据 随 着 时 间 推 移 而 产生 的 变 
化 情况 ， 这 时 是 从 时 间 的 角度 来 观察 产品 的 销售 ， 所 以 时 间 是 一 个 维 ( 时 间 维 )。 企 业 也 时 常 关心 
自己 的 产品 在 不 同 地 区 的 销售 分 布 情况 ， 这 时 是 从 地 理 分 布 的 角度 来 观察 产品 的 销售 ， 所 以 地 理 
分 布 也 是 一 个 维 〈 地 理 维 )。 其 他 还 有 如 产品 维 、 顾 客 维 等 。 

(3) 维 的 层次 

人 们 观察 数据 的 某 个 特定 角度 〈 即 某 个 维 ) 还 可 以 存在 细节 程度 不 同 的 多 个 描述 方面 ， 我 们 
称 这 多 个 描述 方面 为 维 的 层次 。 一 个 维 往往 具有 多 个 层次 ， 例 如 描述 时 间 维 时 ， 可 以 从 日 期 、 月 
份 、 季 度 、 年 等 不 同 层次 来 描述 ， 那 么 日 期 、 月 份 、 季 度 、 年 等 就 是 时 间 维 的 层次 ; 同样 ， 城 市 、 
地 区 、 国 家 等 构成 了 地 理 维 的 层次 。 

(4) 维 成 员 

维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 。 如 果 一 个 维 是 多 层次 的 ， 那 么 该 维 的 维 成 员 是 由 各 个 
不 同 维 层 次 的 取 值 组 合 而 成 的 。 





(5) 多 维 数组 
一 个 多 维 数组 可 以 表示 为 : ( 维 1， 维 2，.… 维 n， 变 量 )。 
(6) 数据 单元 


多 维 数组 的 取 值 称 为 数据 单元 。 当 多 维 数组 的 每 个 维 都 选中 一 个 维 成 员 ， 这 些 维 成 员 的 组 合 
就 唯一 确定 了 一 个 变量 的 值 。 那 么 数据 单元 就 可 以 表示 为 〈 维 1 维 成 员 ， 维 2 维 成 员 ,，…, 维 n 
维 成 员 ， 变 量 的 值 )。 
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(1) 数据 挖掘 的 定义 
数据 挖掘 〈Data Mining) 是 指 基于 一 定 业务 目标 从 海量 数据 中 挖 取 潜 在 的 、 合 理 的 并 能 被 人 
理解 的 模式 的 高 级 处 理 过 程 。 与 传统 的 数据 分 析 最 大 本 质 区 别 是 数据 分 析 所 得 到 的 信息 具有 先前 
未 知 、 有 效 和 实用 三 个 特征 ， 即 数据 挖掘 是 发 现 那 些 不 能 靠 直觉 发 现 的 信息 或 知识 ， 甚 至 违背 直 
觉 的 信息 或 知识 ， 挖 据 出 来 的 信息 越 出 乎 意料 越 有 价值 。 
(2) 数据 挖掘 的 特点 
® 数据 : 挖 据 行为 的 数据 来 源 ， 是 关于 主题 的 集合 ， 是 进行 挖掘 和 知识 发 现 的 原始 材料 。 
日 新 颖 : 数据 挖 振 和 知识 发 现 的 模式 应 该 是 新 阁 的 ， 它 可 以 通过 当前 得 到 的 数据 和 同期 相 比 
得 到 的 数据 的 新 颖 程度 或 者 通过 知识 发 现 的 内 容 和 原先 发 现 的 内 容 相 比 的 新 颖 程度 来 判 
定 模式 的 新 颖 。 
日 隐 含 应 用 性 : 提取 的 数据 应 该 是 对 人 们 有 价值 的 信息 ， 即 按照 商业 主题 为 对 象 的 数据 挖 气 
具有 经 济 价值 或 实用 价值 。 


(3) 数据 挖掘 的 分 类 

数据 挖掘 可 按 数 据 库 类 型 、 挖 掘 对 象 、 挖 掘 任务 、 挖 掘 方法 与 技术 以 及 应 用 等 几 方面 进行 分 类 。 

数据 挖掘 最 开始 是 从 在 关系 数据 库 中 挖掘 知识 发 展 起 来 的 , 随 着 数据 库 类 型 的 不 断 增 加 , 现 有 : 
关系 数据 挖掘 、 模 糊 数据 挖掘 、 历 史 数据 挖掘 、 空 间 数据 挖掘 等 多 种 不 同 数据 库 的 数据 挖掘 类 型 。 

按 挖 掘 的 对 象 分 ， 除 了 数据 库 数据 挖掘 外 ， 还 有 文本 数据 挖 据 、 多 媒体 数据 挖 握 、Web 数据 
挖掘 。 

按 挖掘 任务 分 类 有 关联 规则 挖掘 、 序 列 模式 挖掘 、 聚 类 数据 挖掘 、 分 类 数据 挖掘 、 偏 差 数据 
挖掘 和 预测 数据 挖掘 等 类 型 。 各 类 数据 挖掘 任务 不 同 ， 采 用 的 方法 和 技术 也 将 会 不 同 。 

按 挖 掘 的 方法 和 技术 分 类 有 归纳 学 习 类 、 仿 生物 技术 类 、 公 式 发 现 类 、 统 计 分 析 类 、 模 糊 数 
学 类 、 可 视 化 技术 类 等 。 


(4) 数据 挖掘 的 基本 任务 
数据 挖掘 的 任务 主要 是 关联 分 析 、 聚 类 分 析 、 分 类 、 预 测 、 时 序 模式 和 偏差 分 析 等 。 


e@ 关联 分 析 (Association Analysis ) 





关联 规则 挖掘 由 Rakesh Apwal 等 人 首先 提出 。 两 个 或 两 个 以 上 变量 的 取 值 之 间 存 在 的 规律 性 
称 为 关联 。 数 据 关联 是 数据 库 中 存在 的 一 类 重要 的 、 可 被 发 现 的 知识 。 关 联 分 为 简单 关联 、 时 序 
关联 和 因果 关联 。 关 联 分 析 的 目的 是 找 出 数据 库 中 隐藏 的 关联 网 。 一 般 用 支持 度 和 可 信和 度 两 个 闪 
值 来 度量 关联 规则 的 相关 性 ， 还 不 断 引入 兴趣 度 、 相 关 性 等 参数 ， 使 得 所 挖掘 的 规则 更 符合 需求 。 


e 聚 类 分 析 ( Clustering ) 


聚 类 是 把 数据 按照 相似 性 归纳 成 若干 类 别 ， 同 一 类 中 的 数据 彼此 相似 ， 不 同类 中 的 数据 相 
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异 。 聚 类 分 析 可 以 建立 宏观 的 概念 ,发现 数据 的 分 布 模式 ， 以 及 可 能 的 数据 属性 之 间 的 相互 关系 。 
e@ 分 类 (Classification ) 
分 类 就 是 找 出 一 个 类 别 的 概念 描述 ， 它 代表 了 这 类 数据 的 整体 信息 ， 即 该 类 的 内 涵 描 述 ， 并 


用 这 种 描述 来 构造 模型 ， 一 般 用 规则 或 决策 树 模式 表示 。 分 类 是 利用 训练 数据 集 通 过 一 定 的 算法 
而 求 得 分 类 规则 。 分 类 可 被 用 于 规则 描述 和 预测 。 


e 预测 (Predication ) 

预测 是 利用 历史 数据 找 出 变化 规律 ， 建 立 模型 ， 并 由 此 模型 对 未 来 数据 的 种 类 及 特征 进行 预 
测 。 预 测 关 心 的 是 精度 和 不 确定 性 ， 通 常用 预测 方差 来 度量 。 

ee 时 序 模式 (Time-series Pattern ) 

时 序 模式 是 指 通过 时 间 序 列 搜索 出 的 重复 发 生 概率 较 高 的 模式 。 与 回归 一 样 ， 它 也 是 用 已 知 
的 数据 预测 未 来 的 值 ， 但 这 些 数 据 的 区 别 是 变量 所 处 时 间 的 不 同 。 

@ 偏差 分 析 ( deviation ) 


在 偏差 中 包括 很 多 有 用 的 知识 ， 数 据 库 中 的 数据 存在 很 多 异常 情况 ， 发 现 数据 库 中 数据 存在 
的 异常 情况 是 非常 重要 的 。 偏 差 检验 的 基本 方法 就 是 寻找 观察 结果 与 参照 之 间 的 差别 。 

(5) 数据 挖掘 的 基本 技术 

。 统计 学 

统计 学 虽然 是 一 门 “ 古 老 的 ”学 科 ， 但 它 依然 是 最 基本 的 数据 挖掘 技术 ， 特 别 是 多 元 统计 分 
析 ， 如 判别 分 析 、 主 成 分 分 析 、 因 子 分 析 、 相 关 分 析 、 多 元 回归 分 析 等 。 

。 聚 类 分 析 和 模式 识别 

聚 类 分 析 主 要 是 根据 事物 的 特征 对 其 进行 聚 类 或 分 类 ， 即 所 谓 物 以 类 聚 ， 以 期 从 中 发 现 规律 


和 典型 模式 。 这 类 技术 是 数据 挖掘 的 最 重要 的 技术 之 一 。 除 传统 的 基于 多 元 统计 分 析 的 聚 类 方法 
外 ， 近 些 年 来 模糊 聚 类 和 神经 网 络 聚 类 方法 也 有 了 长 足 的 发 展 。 


日 决策 树 分 类 技术 

决策 树 分 类 是 根据 不 同 的 重要 特征 ， 以 树 型 结构 表示 分 类 或 决策 集合 ， 从 而 产生 规则 和 发 现 
规律 。 

e 人 工 神经 网 络 和 遗传 基因 算法 

人 工 神 经 网 络 是 一 个 迅速 发 展 的 前 沿 研究 领域 ， 对 计算 机 科学 、 人 工 智能 、 认 知 科 学 以 及 信息 


技术 等 产生 了 重要 而 深远 的 影响 ， 而 它 在 数据 挖掘 中 也 扮演 着 非常 重要 的 角色 。 人 工 神经 网 络 可 通 
过 示例 学 习 ， 形 成 描述 复杂 非 线性 系统 的 非 线性 函数 ， 这 实际 上 是 得 到 了 客观 规律 的 定量 描述 ， 有 
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了 这 个 基础 ， 预 测 的 难题 就 会 迎刃而解 。 目 前 在 数据 挖掘 中 ， 最 常 使 用 的 两 种 神经 网 络 是 BP 网 络 
和 RBF 网 络 。 不 过 ， 由 于 人 工 神经 网 络 还 是 一 个 新 兴学 科 ， 一 些 重要 的 理论 问题 尚未 解决 。 


e 规则 归纳 


规则 归纳 相对 来 讲 是 数据 挖掘 特有 的 技术 。 它 指 的 是 在 大 型 数据 库 或 数据 仓库 中 搜索 和 挖掘 
以 往 不 知道 的 规则 和 规律 ， 大 致 包括 以 下 形式 : IF ..…. THEN .…. 


® 可 视 化 技术 


可 视 化 技术 是 数据 挖掘 不 可 忽视 的 辅助 技术 。 数 据 挖掘 通常 会 涉及 较 复 杂 的 数学 方法 和 信息 
技术 ， 为 了 方便 用 户 理解 和 使 用 这 类 技术 ， 必 须 借 助 图 形 、 图 像 、 动 画 等 手段 形象 地 指导 操作 、 
引导 挖掘 和 表达 结果 等 ， 否 则 很 难 推广 普及 数据 挖掘 技术 。 


(6) 数据 挖掘 技术 实施 的 步骤 
数据 挖掘 的 过 程 可 以 分 为 6 个 步骤 。 


日 理解 业务 : 从 商业 的 角度 理解 项 目 目标 和 需求 ， 将 其 转换 成 一 种 数据 挖 气 的 问题 定义 ， 设 
计 出 达到 目标 的 一 个 初步 计划 。 

@ 理解 数据 :收集 初步 的 数据 ， 进 行 各 种 熟悉 数据 的 活动 。 包 括 数据 描述 、 数 据 探索 和 数据 
质量 验证 等 。 

日 准备 数据 : 将 最 初 的 原始 数据 构造 成 最 终 适 合 建 模 工具 处 理 的 数据 集 。 包 括 表 、 记 录 和 属 
性 的 选择 ， 数 据 转换 和 数据 清理 等 。 

® 建 模 : 选择 和 应 用 各 种 建 模 技术 ， 并 对 其 参数 进行 优化 。 

。 模型 评估 : 对 模型 进行 较为 彻底 的 评价 ， 并 检查 构建 模型 的 每 个 步骤 ， 确 认 其 是 否 真正 实 
现 了 预定 的 商业 目的 。 

。 模型 部 署 : 创建 完 模 型 并 不 意味 着 项 目的 结束 ， 即 使 模型 的 目的 是 为 了 增进 对 数据 的 了 
解 ， 所 获得 的 知识 也 要 用 一 种 用 户 可 以 使 用 的 方式 来 组 织 和 表示 。 通常 要 将 活动 模型 应 用 
到 决策 制订 的 过 程 中 去 。 该 阶段 可 以 简单 到 只 生成 一 份 报告 ， 也 可 以 复杂 到 在 企业 内 实施 
一 个 可 重复 的 数据 挖 气 过 程 ， 使 其 得 到 普遍 承认 。 

(7) 数据 挖掘 的 应 用 


数据 挖掘 的 应 用 领域 非常 广泛 ， 未 来 世界 的 各 个 方面 都 需要 数据 挖掘 ， 目 前 主要 集中 在 如 下 
领域 。 


e@ 商业 领域 


数据 挖掘 的 商业 领域 主要 是 电子 商务 的 出 现 和 发 展 带动 了 数据 挖掘 的 发 展 ， 客 户 关系 CRM 
系统 的 繁荣 和 发 展 也 带动 了 数据 挖掘 的 发 展 数据 挖掘 能 发 现 商务 客户 的 共性 点 和 差异 的 /现实 和 
未 来 预测 的 信息 、 必 然 的 信息 、 独 立 或 者 关联 的 信息 等 ， 通 过 发 掘 这 些 信息 知识 能 够 归纳 和 总 结 
用 户 的 消费 行为 ， 如 消费 能 力 、 消 费 需求 、 对 产品 的 关注 度 、 消 费心 理 等 ， 这 些 有 价值 的 信息 能 
够 为 管理 者 的 决策 提供 依据 和 信息 来 源 。 在 CRM 即 客户 关系 管理 系统 中 可 以 根据 需求 对 客户 进 
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行 分 类 ， 分 析 客 户 的 消费 能 力 、 客 户 住址 区 域 信息 、 客 户 购买 产品 的 能 力 等 。 借 助 数据 挖掘 系统 
的 相关 工具 如 数据 仓库 、 知 识 发 现 、 数 据 决策 分 析 等 工具 可 以 预测 投资 行情 ， 如 股票 、 期 货 ， 也 
可 以 用 于 分 析 电 信 、 医 疗 行业 ， 深 入 了 解 客户 的 喜好 ， 调 整 营销 策略 和 提高 产品 质量 等 。 


。 科研 领域 


数据 挖掘 在 科研 领域 的 应 用 也 非常 广泛 ， 主 要 是 地 理 、 医 学 、 生 物 工程 等 方面 。 数 据 挖掘 目 
前 在 远程 教育 的 应 用 中 比较 成 熟 ， 老 师 可 以 根据 学 生 的 学 习 基础 对 学 生 的 学 习 情况 进行 跟踪 ， 根 
据 学 生 的 特点 建立 不 同 的 教学 方法 库 ， 动 态 调整 教学 方法 和 内 容 。 数 据 挖 气 在 地 理 信 息 工程 中 的 
应 用 主要 体现 在 空间 数据 的 应 用 和 研究 上 ， 空 间 数据 挖掘 可 以 理解 为 将 数据 挖掘 和 地 理 信 息 系 
统 、 遥 感 信 息 学、 全 球 定位 、 模 式 识别 等 综合 在 一 起 的 交叉 学 科 的 研究 应 用 ， 空 间 应 用 也 是 现在 
数据 挖掘 中 的 一 个 重点 和 热门 领域 。 数 据 挖掘 在 军事 领域 的 应 用 对 打 赢 信息 化 条 件 下 的 局 部 战争 
提供 了 很 好 的 技术 支持 。 


ee Web 挖 据 





随 着 Internet 的 迅猛 发 展 ， 今 天 它 已 成 为 各 行 各 业 人 们 交流 思想 、 获 取信 息 的 便利 手段 。 但 
是 这 些 信息 缺乏 结构 化 、 组 织 的 规整 性 。 随 意 地 散布 在 因特网 的 各 个 角落 ， 这 已 成 为 这 座 世 界 性 
图 书馆 的 一 大 遗憾 。 而 今天 因特网 的 规模 在 急剧 地 扩大 。 其 上 的 信息 量 也 在 爆炸 般 地 增长 ， 这 时 
人 们 若 不 去 有 意识 地 寻求 弥补 该 缺憾 的 有 效 途 径 ， 在 不 久 的 将 来 人 们 将 迷途 于 信息 的 汪洋 中 。 数 
据 挖掘 在 Intemet 上 的 应 用 包括 : 在 搜索 引擎 上 对 文档 进行 自动 分 类 、 帮 助 寻 找 用 户 感 兴趣 的 新 
闻 以 及 利用 数据 挖掘 设计 一 个 电子 新 闻 过 滤 系统 。 利 用 文本 学 习 建 立 起 该 用 户 的 趋向 模型 ， 当 用 
户 进 入 一 份 电子 报纸 的 网 页 时 ， 该 系统 就 会 根据 学 习 所 得 的 模型 对 其 中 的 每 一 篇 文章 与 用 户 的 兴 
趣 的 接近 程度 进行 打分 排序 ， 使 用 户 最 先 看 到 他 最 感 兴趣 的 新 闻 。 


(8) 数据 挖掘 的 价值 实现 难点 分 析 

数据 挖掘 是 数据 库 中 的 知识 发 现 ， 从 知识 发 现 到 知识 应 用 、 再 到 价值 评估 是 一 条 数据 挖掘 价 
值 变现 的 过 程 ， 虽 然 数据 挖 掘 重要 性 毋庸 置疑 ， 但 事实 上 其 在 实现 商业 价值 的 道路 上 仍 有 较 多 困 
难 。 

@ 知识 发 现 

知识 发 现 是 这 条 路 的 始 端 ， 直 接 决 定 了 最 终 价 值 的 高 度 。 挖 掘 的 方法 是 通用 的 ， 但 难度 不 在 


挖掘 技术 ， 而 在 于 实施 人 员 对 数据 业务 的 理解 ， 在 于 数据 的 质量 。 实 施 人 员 必 须 清楚 地 知道 数据 
回收 的 场景 和 原理 ， 稍 有 沟通 缺失 ， 都 会 影响 知识 的 质量 度 。 


@ 知识 应 用 

发 现 了 知识 ， 只 是 迈 出 第 一 步 ， 需 要 将 相关 的 知识 发 现 交 给 业务 部 门 进行 运营 使 用 。 不 管 是 
以 甲 方 公司 还 是 乙方 公司 的 形式 存在 ， 难 点 在 于 语言 的 翻译 转发 。 数 据 挖掘 的 语言 形式 是 概率 形 
式 ， 类 如 “连续 三 天 内 在 站 内 搜索 超过 10 次 ， 浏 览 搜索 结果 相关 页 面 20 次 以 上 的 用 户 最 终 购买 
概率 为 42%”， 因 此 需要 实施 人 员 深 详 运营 知识 ， 将 挖掘 结果 语言 转化 成 运营 结果 语言 ， 最 终 成 
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为 友好 的 商业 运营 。 应 用 的 过 程 还 需要 及 时 跟踪 、 分 析 、 调 整 ， 毕 竞 市 场 是 多 变 的 ， 分 析 与 执行 
就 像 左 脑 和 右 脑 ， 两 者 距离 的 远近 ， 影 响 结果 的 优 劣 。 

。 价值 评估 

数据 挖掘 的 效果 评估 决定 最 终 的 话语 和 地 位 。 从 结果 来 看 ， 如 果 结 果 有 效 ， 如 何 界定 是 知识 
有 效 还 是 执行 有 效 ， 如 果 结 果 无 效 ， 如 何 界定 是 知识 无 效 还 是 执行 无 效 ， 如 果 知 识 有 效 ， 如 何 界 
定 是 通过 挖掘 发 现 还 是 已 知 发 现 。 如 果 不 能 很 清晰 地 界定 ， 数 据 挖掘 的 存在 价值 都 会 大 打折 扣 。 
曾经 有 个 笑话 ，“ 通 过 海量 数据 发 现 ， 中 国 的 15~20 岁 的 男性 网 民 最 喜欢 使 用 QQ 即时 通信 工 
具 ”， 这 样 的 知识 发 现 虽然 是 个 笑话 ， 但 在 现实 行业 里 却 是 个 不 争 的 事实 。 数 据 挖掘 的 价值 应 当 
是 显现 的 、 直 观 的 、 令 人 信服 的 ， 不 在 于 挖掘 的 技术 多 么 高 深 ， 而 在 于 整个 体系 的 搭建 和 成 果 的 
展现 ， 做 得 再 好 ， 看 不 到 效果 ， 也 等 于 无 效 。 

(9) 国内 外 数据 挖掘 的 研究 现状 

目前 ， 数 据 挖掘 的 研究 和 应 用 已 经 引起 人 们 的 关注 ， 学 术 界 、 实 业界 和 政府 部 门 越发 重视 数 
据 挖掘 的 研究 。 以 美国 为 核心 的 发 达 国 家 对 数据 挖掘 的 研究 和 应 用 取得 了 重大 进展 ， 在 数据 挖掘 
的 研究 领域 ， 数 据 挖 掘 开展 最 早 的 也 是 美国 ， 数 据 挖掘 的 核心 研究 还 是 在 美国 ， 作 为 具有 全 球 影 
响 力 的 KDD (Knowledge Discovery in Database) 学 术 会 议 从 1995 年 到 现在 已 经 召开 多 次 会 议 ， 
其 中 大 部 分 在 美国 召开 , 凸显 了 美国 的 重要 作用 和 比重 。 全 球 应 用 最 为 广泛 的 数据 挖掘 产品 主要 
是 美国 研发 生产 出 来 SPSS、SAS 。 

我 国 数据 挖掘 研究 比美 国 晚 ，21 世纪 才 开 始 起 步 ， 2001~2003 年 发 表 的 这 方面 的 论文 比重 很 
低 ， 近 年 来 该 方面 论文 收录 比重 开始 急剧 上 升 ， 数 据 挖掘 的 研究 越 来 越 受到 大 家 的 重视 ， 同 时 相 
关 的 IT 公司 也 在 研发 这 方面 的 产品 ， 数 据 挖掘 的 人 才 培 养 也 越 来 越 受 到 高 校 、 公 司 的 重视 。 由 此 
可 见 数据 挖掘 已 成 为 一 个 热门 的 研究 领域 ， 将 带动 大 量 相关 产业 的 发 展 。 

(10) 数据 挖掘 的 发 展 趋势 

经 过 多 年 的 研究 和 发 展 ， 数 据 挖 掘 充 分 吸收 了 多 门 学 科 的 最 新 研究 成 果 ， 逐 步 形 成 了 自己 独 
特 的 风格 特点 ， 形 成 了 独 具 特 色 的 研究 分 支 。 但 是 ， 数 据 挖掘 研究 和 应 用 仍 具 有 巨大 的 挑战 性 ， 
凡事 都 要 有 一 个 过 程 ， 数 据 挖掘 的 研究 和 发 展 也 一 样 。 

分 析 目 前 的 研究 和 应 用 现状 ， 数据 挖 气 在 如 下 6 个 方面 需要 重点 开展 工作 。 

@ 数据 挖掘 技术 与 特定 商业 逻辑 的 平滑 集成 问题 

有 效 、 显 著 的 应 用 实例 能 够 很 好 地 证 明 数据 挖掘 和 知识 发 现 技术 的 广阔 应 用 前 景 。 数 据 挖掘 
过 程 很 多 关键 课题 已 经 嵌入 了 对 行业 或 企业 知识 挖掘 的 约束 与 指导 、 商 业 逻 辑 等 领域 知识 ， 这 些 
领域 知识 将 是 数据 挖掘 与 知识 发 现 技术 研究 和 应 用 的 重点 发 展 方向 。 

e@ 数据 挖 气 技术 与 特定 数据 存储 类 型 的 适应 问题 

数据 挖掘 的 具体 实现 机 制 、 目 标定 位 、 技 术 有 效 性 会 受到 不 同 数据 存储 方式 的 影响 。 要 想 依 
靠 单一 通用 的 应 用 模式 适合 所 有 的 数据 存储 方式 去 发 现 有 效 知识 是 不 可 能 的 。 因 此 根据 不 同 数据 
存储 类 型 的 特点 进行 针对 性 数据 挖掘 的 研究 是 目前 流行 而 且 也 是 将 来 一 段 时 间 的 主要 问题 之 一 。 
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@ 大 型 数据 的 选择 与 规格 化 问题 
在 对 大 型 数据 集 进行 数据 挖掘 时 ， 由 于 源 数据 库 中 的 数据 呈现 动态 变化 ， 还 有 数据 存在 噪 
声 、 不 确定 性 、 信 息 丢 失 、 信 息 元 余 、 数 据 分 布 稀疏 等 问题 ， 必 须 进 行 挖掘 前 的 预 处 理工 作 。 对 
特定 商业 目标 进行 数据 挖掘 时 ， 由 于 存在 大 量 的 数据 ， 必 须要 选择 性 地 利用 ， 因 此 如 何 进行 数据 
选择 、 规 格 化 特定 挖掘 方法 是 无 法 回避 的 问题 。 
e@ 数据 挖 据 系统 的 构架 与 交互 式 挖 气 技 术 
随 着 研究 的 发 展 ， 数 据 挖掘 系统 的 基本 构架 已 经 逐步 形成 ， 过 程 已 经 趋 于 明朗 ， 但 是 受 其 他 
因素 的 影响 ， 在 进行 数据 挖掘 研究 时 ， 很 多 方面 仍 需 要 深入 研究 。 由 于 数据 挖掘 是 在 大 量 的 源 数 
据 集中 发 现 潜在 的 、 事 先 并 不 知道 的 知识 ， 因 此 和 用 户 交互 式 进行 探索 性 挖掘 是 必然 的 。 这 种 交 
互 可 能 发 生 在 数据 挖掘 的 各 个 不 同 阶段 ， 从 不 同 角度 或 不 同 粒度 进行 交互 。 所 以 良好 的 交互 式 挖 
所 (Interaction Mining) 也 是 数据 挖掘 系统 成 功 的 前 提 。 
e@ 数据 挖掘 语言 与 系统 的 可 视 化 问题 
由 于 数据 挖掘 技术 诞生 较 晚 ， 加 上 其 复杂 的 特点 ， 在 开发 相应 的 数据 挖掘 操作 语言 时 将 会 困 
难 重 重 。 可 视 化 要 求 成 为 了 信息 处 理 系统 的 不 可 缺 的 技术 。 可 视 化 挖掘 除了 要 和 良好 的 交互 式 技 
术 结 合 外 ， 还 必须 在 挖掘 结果 或 知识 模式 的 可 视 化 、 挖 掘 过 程 的 可 视 化 以 及 可 视 化 指导 用 户 挖掘 
等 方面 进行 探索 和 实践 。 数 据 的 可 视 化 从 某 种 角度 说 起 到 了 推动 人 们 主动 进行 知识 发 现 的 作用 ， 
因为 它 可 以 是 人 们 从 对 KDD 的 神秘 感 变 成 可 以 直观 理解 的 知识 和 形象 的 过 程 。 
@ 数据 挖 气 理论 与 算法 研究 
经 过 研究 ， 数 据 挖掘 已 经 形成 了 独 具 特 色 的 理论 体系 。 但 是 ， 这 绝 不 意味 着 挖掘 理论 的 探索 
已 经 结束 ， 而 是 给 我 们 带 来 了 更 加 丰富 的 理论 研究 课题 ， 这 些 新 理论 面 对 实 际 应 用 目标 进行 数据 
挖掘 时 具有 重要 的 指导 作用 ， 新 理论 的 发 展 必 然 促 进 新 的 挖掘 算法 的 产生 ， 这 些 算 法 对 扩展 数据 
挖掘 非常 有 效 ， 因 此 ， 对 数据 挖掘 理论 和 算法 的 探讨 将 是 长 期 而 艰巨 的 任务 。 
从 上 面 的 叙述 可 以 看 出 ， 数 据 挖掘 研究 和 探索 的 内 容 是 极其 丰富 和 具有 挑战 性 的 。 
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5.2.4 ”数据 模型 与 数据 建 模 方法 


1. 数据 库 类 型 


随 着 关系 数据 库 系 统 的 使 用 越 加 广泛 , 也 越 加 深入 , 有 人 指出 关系 数据 库 所 具有 的 一 些 问题 。 
为 了 解决 关系 数据 库 所 固有 的 一 些 缺 陷 ， 很 多 研究 人 员 投 入 到 新 的 数据 模型 的 研究 上 ， 出 现 了 多 
种 类 型 的 数据 系统 ， 主 要 的 数据 库 类 型 如 下 。 


(1) 对 象 数据 库 系统 

它 是 数据 库 技术 与 面向 对 象 程序 设计 方法 相 结合 的 产物 ， 具 有 良好 的 扩展 数据 类 型 、 支 持 任 
意 复杂 类 型 的 对 象 、 具 有 面向 对 象 的 继承 、 多 态 等 特性 。 其 最 大 的 性 能 优势 是 不 必 像 关 系数 据 库 
一 样 在 数据 使 用 之 前 先 对 数据 连接 ， 而 是 以 使 用 数据 的 方式 存储 数据 ， 这 就 大 大 提高 了 性 能 。 当 
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前 的 主要 产品 有 Versant、Objectivity、ObjectStore、DB4Obiects。 但 是 因为 对 象 数据 库 没 有 提出 
一 个 高 效 的 从 关系 模型 到 对 象 模型 的 转换 ， 所 以 对 象 数据 库 系 统 使 用 的 范围 比较 小 ， 主 要 是 在 小 
型 的 找 入 式 系统 中 ， 例 如 作为 手机 的 数据 存储 模型 。 


(2) 内 存 数据 库 

它 打 破 了 传统 磁盘 数据 库 的 设计 观念 ， 考 虑 内 存 直接 快速 存 取 的 特点 ， 以 CPU 和 内 存 空间 
的 高 效 利用 为 目标 来 重新 设计 开发 各 种 策略 与 算法 、 技 术 、 方 法 以 及 机 制 。 其 本 质 特征 是 数据 的 
“ 主 拷贝 ”或 “工作 版 本 ” 常 驻 内 存 ， 活 动 事务 只 与 内 存 数 据 库 的 拷贝 打交道 。 当 前 主要 的 产品 
包括 : TimesTen、SqlLite、eXtreme DB、Solid。 但 是 因为 其 固有 的 处 理 策略 ， 要 求 要 有 足够 大 的 
内 存 才能 够 实现 ， 而 内 存 空间 是 有 限 的 ， 所 以 当前 内 存 数据 库 主要 用 在 实时 业务 系统 中 ， 例 如 在 
证 券 交易 系统 中 ， 可 以 考虑 使 用 内 存 数据 库 。 


(3) 分 布 式 数据 库 

由 通过 网 络 相互 连接 、 多 个 不 同 场地 上 的 局 部 数据 库 构成 。 这 些 数据 库 服 从 于 同一 个 应 用 需 
求 ， 它 们 在 业务 逻辑 上 相互 关联 ， 由 一 个 全 局 统一 的 分 布 式 数据 库 管理 系统 进行 管理 。 这 种 数据 
库 类 型 具有 可 用 性 强 、 可 扩展 性 强 等 特点 。 但 是 缺点 是 因为 分 布 式 的 引入 ， 使 数据 库 管理 系统 的 
复杂 性 大 大 增加 ， 对 分 布 式 控制 提出 了 更 高 的 要 求 和 挑战 。 所 以 目前 没有 很 成 熟 的 真正 意义 上 的 
分 布 式 数据 库 产品 ， 虽 然 有 些 关 系数 据 库 系 统 通过 扩充 实现 的 分 布 式 存储 ， 但 是 没有 像 分 布 式 数 
据 库 描述 的 那样 ， 实 现 事务 级 别 的 分 布 式 。 


(4) 并 行 数据 库 

它 是 在 并 行 机 上 运行 的 具有 并 行 处 理 能 力 的 数据 库 系 统 。 并 行 数据 库 系统 是 数据 库 技术 与 并 
行 计算 技术 相 结合 的 产物 。 并 行 计算 技术 利用 多 处 理 机 并 行 处 理 产 生 的 规模 效益 来 提高 系统 的 整 
体 性 能 , 为 数据 库 系 统 提供 了 一 个 良好 的 硬件 平台 。 比较 有 代表 性 的 并 行 数据 库 包括 Vertica、 Aster 
Data 的 nCluster、NCR 的 Teradata 以 及 Greenplum。 


2. 数据 建 模 方法 


(1) Richard Barker 表示 法 

Richard Barker 表示 法 最 初 是 由 英国 的 CACI 咨询 公司 提出 的 ， 现 在 是 欧洲 所 采用 的 SSADM 
方法 的 一 部 分 。 后 来 得 到 了 Richard Barker 的 大 力 倡导 , 为 Oracle 公司 采用 , 成 为 其 “CASE* 方 
法 ”的 一 部 分 。 

在 需求 分 析 中 宜 采用 Barker 数据 建 模 表示 法 , 这 是 因为 它 外 观 简洁 , 最 易于 向 用 户 进行 表述 ， 
对 于 非 技术 人 员 来 说 ， 清 晰 的 模型 图 更 容易 理解 。 在 具有 同等 完整 性 的 表示 法 中 ，Barker 表示 法 
是 最 简单 、 最 清楚 的 一 种 。 它 使 用 的 符号 种 类 相对 较 少 ， 表 示 出 的 模型 图 比较 清楚 ， 要 求 用 户 认 
知 的 成 分 种 类 也 比较 少 。 

在 实体 的 类 型 与 属性 的 表示 上 ， 其 他 一 些 表 示 法 额外 地 添加 了 一 些 符号 ， 如 IDEF1X 表示 法 
中 ， 用 不 同 的 符号 来 表示 “依赖 ”和 “独立 ”实体 类 型 ， 同 时 还 需要 在 不 同 的 实体 类 型 端 使 用 不 
同 的 关系 符号 。UML 表示 法 中 根据 参照 完整 性 的 不 同 而 用 两 种 特殊 的 符号 来 指明 “属于 ”和 “ 包 
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括 ” 的 关系 。 这 些 所 添加 的 符号 都 增加 了 模型 图 的 复杂 性 ， 使 其 更 难以 理解 ， 而 对 于 用 户 而 言 ， 
却 并 没有 增加 通过 Barker 表示 法 的 简单 符号 和 名 称 就 能 表示 的 信息 之 外 的 有 效 内 容 。 

在 关系 的 表示 上 ， 对 于 大 多 数 用 户 来 说 ， 可 选择 性 是 最 重要 的 特性 ， 在 Barker 表示 法 中 ， 可 选 
择 性 是 通过 最 明显 的 外 观 特点 一 关系 线 的 虚实 来 表示 的 。IDEF1X 表示 法 中 虽然 也 利用 了 关系 线 的 
虚实 ， 但 却 是 用 来 表达 某 个 关系 在 多 大 程度 上 是 唯一 标识 。 对 于 关系 的 基数 性 ，Barker 表示 法 只 需 
要 用 乌鸦 脚 符号 的 有 无 就 完全 可 以 表示 出 某 个 关系 的 上 限 ， 而 在 其 他 一 些 表示 法 中 ， 表 示 手 段 就 要 
复杂 得 多 。 例 如 IDEF1X 表示 法 中 通过 虚实 线 与 其 两 端 不 同 的 圆 形 、 萎 形 符号 的 22 种 组 合 分 别 表 
示 不 同 的 基数 性 和 可 选择 性 关系 ，UML 表示 法 中 也 需要 通过 详细 定义 上 下 限 来 表示 。 

在 关系 名 称 的 表示 上 ，Barker 表示 法 要 求 分 析 师 对 各 种 关系 做 出 精炼 的 表述 ， 而 且 要 使 用 清 
楚 、 语 法 正确 、 易 于 理解 的 介词 或 介词 短语 ， 这 方面 其 他 表示 法 都 是 采用 动词 或 动词 短语 作为 关 
系 名 称 的 。 由 于 在 自然 语言 中 ， 介 词 就 是 用 以 描述 关系 的 ， 所 以 Barker 表示 法 更 为 合适 。 动 词 描 
述 的 是 动作 而 不 是 关系 ， 用 动词 来 描述 关系 其 实 是 对 两 个 实体 类 型 间 的 动作 来 下 定义 ， 在 数据 模 
型 中 简单 地 描述 关系 本 身 更 为 合适 ， 而 动词 则 更 适用 于 功能 模型 中 。 

在 子 类 型 的 表示 上 ，Barker 表示 法 是 唯一 在 超 类 型 内 部 表示 子 类 型 的 表示 法 ， 这 样 做 一 方面 
可 以 强调 子 类 型 是 超 类 型 的 子 集 这 一 事实 , 另 一 方面 也 可 以 节省 绘图 空间 。 在 模型 的 可 读 性 方面 ， 
其 他 表示 法 中 都 允许 关系 线 任意 弯 折 ， 从 而 使 模型 图 显得 更 为 复杂 。 而 在 Barker 表示 法 中 对 模型 
图 的 布局 有 着 特定 的 要 求 ， 可 以 使 关系 线 尽 可 能 短 、 直 。 


(2) IDEF1X 表示 法 

IDEF1X 表示 法 是 为 美国 联邦 政府 的 众多 部 门 所 采用 的 一 种 数据 建 模 技 术 。 在 IDEF 方法 家 族 
中 ，IDEFI 是 最 早 着 手 研究 和 制定 的 标准 之 一 ， 它 主要 用 作 开 发 “信息 模型 "。 而 IDEF1X 标准 则 
是 在 IDEF1 标准 的 基础 上 进行 的 扩展 ， 它 在 表示 符号 和 语义 方面 进行 了 较 大 的 改动 ， 主 要 增加 了 
概括 和 聚合 语义 ,于 1985 年 正式 发 布 .1993 年 IDEF1X 成 为 美国 政府 的 处 理 标准 文件 FIPS(Federal 
Information Processing Specification ) 之 一 。 

在 关系 数据 库 设计 中 宜 采用 IDEF1X 表示 法 ， 这 是 因为 对 于 技术 人 员 而 言 ，IDEF1X 表示 法 
能 表示 出 实现 方式 上 的 复杂 细节 ， 例 如 突出 强调 的 外 键 存在 、 关 系 的 可 选择 性 和 基数 性 的 完整 组 
合 等 。 但 对 非 技 术 人 员 而 言 ， 这 种 方法 并 没有 遵从 设计 优良 图 形 的 原则 ， 该 方法 可 能 较 难 掌握 和 
使 用 。 在 关系 的 表述 上 ，IDEF1X 表示 法 中 所 用 的 符号 并 不 与 它们 所 要 表达 的 模型 中 的 概念 完全 
相符 。 在 这 种 表示 法 中 ， 本 应 由 一 个 符号 表示 的 概念 却 要 求 同 时 使 用 多 个 符号 来 表示 ， 而 且 某 一 
特定 情况 可 以 由 不 只 一 组 符号 来 表示 ， 而 同一 符号 在 不 同上 下 文中 又 可 能 表示 不 同 的 含义 。 某 一 
特定 情况 到 底 该 用 哪个 符号 来 表示 在 很 大 程度 上 取决 于 上 下 文 和 该 关系 的 实现 方式 ， 而 不 是 取决 
于 该 情况 本 身 。 这 些 做 法 导致 要 教会 非 技 术 人 员 读 懂 IDEF1X 模型 图 是 极为 困难 的 。 

IDEF1X 表示 法 中 , 直线 的 虚实 用 来 表示 某 一 实体 类 型 是 否 构成 另 一 实体 类 型 的 唯一 标识 ( 主 
键 )。 这 将 要 求 分 析 师 在 开始 考察 模型 中 各 关系 的 可 选择 性 或 基数 性 之 前 ， 先 分 析 依赖 性 。 但 在 实 
际 建 模 时 ， 分 析 师 通常 总 是 先 考察 哪些 实体 类 型 是 其 他 实体 类 型 所 需要 的 ， 以 及 其 中 涉及 多 少 次 
出 现 等 问题 ， 通 常 是 在 后 期 才 考 虑 主键 或 标识 等 细节 。 另 外 对 这 种 模型 的 修改 也 是 非常 困难 的 ， 
如 果 基数 性 或 可 选择 性 方面 出 现 了 某 个 小 错误 ， 就 必须 改动 好 几 个 符号 。 
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(3) UML 表示 法 

面向 对 象 是 软件 领域 的 主流 技术 ,UML 的 诞生 与 发 展 更 是 对 于 整个 软件 开发 流程 的 改善 起 了 
相当 关键 的 作用 。20 世纪 80 年 代 ， 出 现 了 一 大 批 面向 对 象 的 分 析 与 设计 方法 ， 如 Booch 方法 、 
Coad / Yourdon 方法 、Firesmith 方法 、Jacobson 的 OOSE、Martin / Odell 方法 、Rumbaugh 等 人 的 
OMT、Shlaer / MeIlor 方 法 等 ， 设 计 与 建 模 技术 比较 纷乱 ， 众 说 纷 纸 。1997 年 Rational 公司 与 其 
他 公司 一 起 共同 推出 了 UML 1.0， 形 成 了 统一 的 建 模 语言 ，2003 年 又 推出 了 UML2.0，2.0 可 以 让 
开发 者 在 设计 软件 的 过 程 中 分 解 成 不 同 层次 进行 设计 , 同时 2.0 完整 度 非常 高 , 弥补 了 1.0 版 在 做 
软件 设计 开发 方面 的 缺陷 。 

在 面向 对 象 的 设计 中 宣 采 用 UML 表示 法 ， 这 是 因为 它 更 完整 、 更 详尽 。 通 过 其 他 数据 建 模 
方法 所 不 具备 的 额外 表达 能 力 ， 使 其 不 仅 适合 于 系统 的 逻辑 分 析 模 型 的 表述 ， 也 同样 适用 于 物理 
设计 模型 的 表述 。 

在 实体 属性 的 表述 上 , UML 表示 法 较 其 他 表示 法 能 够 更 详细 地 对 属性 做 出 描述 。 可 以 标注 出 
包括 构造 型 、 可 视 性 、 名 称 、 多 样 性 、 类 型 、 初 始 值 等 一 个 或 多 个 内 容 ， 而 在 Barker 及 IDEF1X 
中 对 于 实体 属性 仅 标注 出 名 称 。 

在 关系 的 表述 上 , 对 并 非 是 两 个 关联 间 的 简单 关系 的 商业 规则 , UML 表示 法 引入 了 一 种 小 标 
志 , 该 标志 中 可 以 包括 描述 任何 商业 规则 的 文字 。 对 关系 的 可 选择 性 和 基数 性 的 表示 ,UML 表示 
法 能 够 表述 更 为 复杂 的 上 限 ， 可 以 具体 说 明 某 个 实体 类 型 的 出 现 可 能 与 另 一 个 实体 类 型 的 1、7 一 
9 或 10 次 出 现 有 关 。 

在 关系 间 约 束 的 表述 上 ，UML 表示 法 用 两 个 关联 之 间 的 简单 直线 代替 了 Barker 表示 法 中 对 
关系 之 间 约 束 的 表述 ， 而 且 可 以 在 这 种 直线 上 加 评注 ， 从 而 描述 两 个 关联 之 间 的 任何 关系 。 


数据 查询 、 分 析 与 建 模 技术 的 实现 与 工具 


本 部 分 内 容 主 要 对 数据 查询 、 分 析 与 建 模 工具 进行 介绍 ， 并 给 出 了 多 种 实现 的 技术 。 数 据 查 
询 部 分 主要 针对 Nutch 与 Lucene 进行 介绍 ; 数据 分 析 部 分 主要 对 Google 的 Dremel 技术 进行 深入 
分 析 ; 在 数据 建 模 部 分 ， 主要 对 Sybase Power Designer 以 及 ERWin 进行 介绍 ， 使 得 读者 对 数据 查 
询 、 分 析 与 建 模 有 一 个 表 全 面 的 了 解 。 


5.3.1 数据 查询 相关 技术 实现 与 工具 


随 着 云 计算 技术 以 及 大 数据 概念 的 提出 ， 众 多 针对 海量 数据 查询 处 理 的 技术 开始 出 现 ， 其 中 
最 为 著名 的 就 属于 Apache 的 开源 项 目 : Lucene 与 Nutch。 
1. Lucene 


(1) Lucene 介绍 
Lucene 是 Apache 软件 基金 会 Jakarta 项 目 组 的 一 个 子 项 目 , 是 一 个 用 Java 编写 的 开放 源 代码 的 
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全 文 检索 引擎 工具 包 ， 即 它 不 是 一 个 完整 的 全 文 检索 引擎 ， 而 是 一 个 全 文 检 索引 擎 的 架构 ， 提 供 了 
完整 的 查询 引擎 和 索引 引擎 及 部 分 文本 分 析 引 擎 。Lucene 可 以 对 任何 数据 做 索引 和 搜索 。 不 管 数据 
源 是 什么 格式 ,只 要 它 能 被 转化 为 文字 的 形式 ,就 可 以 被 Lucene 所 分 析 利 用 。 也 就 是 说 不 管 是 Word、 
HTML、PDF 还 是 其 他 形式 的 文件 ， 只 要 可 以 从 中 抽取 出 文字 形式 的 内 容 就 可 以 被 Lucene 所 用 ， 
就 可 以 用 Lucene 对 它们 进行 索引 及 搜索 。 Lucene 由 Apache 软件 基金 会 支持 和 提供 。 原 作者 为 Doug 
Cutting， 他 是 一 位 资深 的 全 文 索 引 /检索 专家 。 如 图 5.4 所 示 为 Lucene 的 体系 结构 图 。 
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图 5.4 Lucene 体系 结构 


Lucene 源码 中 共 包 括 7 个 子 包 , 每 个 包 完成 特定 的 功能 。 如 表 5.1 所 示 为 Lucene 源码 包 及 其 
对 应 功能 。 


Svan 


表 5.1 Lucene 源码 包 及 其 对 应 功能 














包 名 功能 

Org.apache.lucene.analysis 语言 分 析 器 ， 主 要 用 于 切 分 词 
Org.apache.lucene.document 索引 存储 时 的 文档 结构 管理 
Org.apache.lucene.index 索引 管理 ， 包 括 索引 的 建立 、 删 除 等 
Org.apache.lucene.queryParser 查询 分 析 器 ， 实 现 查 询 关 键 词 间 的 运算 
Org.apache.lucene.search 检索 管理 ， 根 据 查询 条 件 ， 检 索 得 到 结果 
Org.apache.lucene.store 数据 存储 管理 

Org.apache.lucene.util 公共 类 








从 根本 上 说 ， 主 要 包括 两 块 : 一 是 文本 内 容 经 切 分 词 后 索引 入 库 ; 二 是 根据 查询 条 件 返 回 结 
果 ， 即 索引 部 分 和 查询 部 分 两 部 分 。 要 看 源码 包 所 对 应 完成 的 功能 属于 索引 部 分 还 是 查询 部 分 。 
(2) Lucene 的 索引 


Lucene 索引 信息 存储 有 三 种 可 选 方式 : 内 存 (RAM)、 文 件 系 统 (FS) 和 数据 库 (DB)。RAM 
存储 适用 于 较 小 的 检索 系统 ， 文 件 系统 存储 可 用 于 中 型 检索 ， 数 据 库存 储 则 适用 于 对 检索 性 能 要 
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求 更 高 的 系统 。 下 面 对 其 索引 存储 逻辑 进行 分 析 。 在 Lucene 中 ， 索 引 (index) 由 段 (segment) 
组 成 ， 段 (segment) 由 记录 (document) 组 成 ， 记 录 (document) 由 域 (field) 组 成 ， 域 (field) 
由 字符 串 (term) 组 成 。 例 如 ， 一 个 document 可 以 与 一 个 物理 文件 对 应 ， 将 其 中 文件 名 、 文 件 内 
容 、 文 件 创建 时 间 等 信息 提取 为 数据 源 放 入 document 中 ,也 可 将 多 个 物理 文件 的 数据 源 同时 放 入 
一 个 document。 数 据 源 是 由 一 个 被 称 为 field 的 类 表示 。 这 个 field 类 主要 用 来 标识 当前 数据 源 各 
种 属性 ， 主 要 是 以 下 三 种 标识 。 


。 可 分 词性 : 该 数据 源 是 否 需要 经 过 分 词 。 可 分 词 时 ， 内 容 被 分 成 多 个 可 被 索引 的 词 ; 不 可 
分 词 时 ， 整 个 字段 内 容 作为 一 个 词 。 

。 可 存储 性 : 字段 内 容 直接 按照 词 存 放 ， 而 不 是 以 倒 排 形式 存放 。 

。 可 索引 性 : 该 数据 源 的 数据 是 否 要 在 用 户 检索 时 被 检索 ,需要 检索 时 ， 字 段 内 容 以 倒 排 形 
式 存放 ， 即 记录 字段 每 个 词 在 某 一 文档 中 出 现 的 频率 。 


从 代码 方面 上 看 ， 在 Lucene 的 索引 部 分 。invertDocument() 方 法 是 最 重要 的 ， 由 它 调用 分 析 
器 的 接口 ， 分 析 统 计 词 条 的 位 置 与 频率 信息 。 作 用 就 是 建立 倒 排 索引 ， 直 观 地 讲 ， 就 像 一 本 书 在 
最 后 给 出 书 中 出 现 的 名 词 列表 ， 同 时 对 应 给 出 该 名 词 出 现在 第 几 章 和 第 几 页 。 在 查找 的 时 候 ， 可 
以 直接 定位 到 具体 页 码 ， 而 不 用 从 目录 开始 逐个 查找 。Lucene 在 维护 和 扩展 索引 的 时 候 不 断 创建 
新 的 文件 ， 最 终 将 这 些 新 的 小 索引 文件 并 入 大 索引 中 。 程 序 员 可 以 根据 不 同 的 要 求 自行 调整 批 次 
大 小 周期 长 短 。 这 点 对 于 Lucene 的 检索 效率 也 相当 的 重要 。 建 立 索引 ， 是 需要 占用 内 存 资 源 的 ， 
当 有 新 的 记录 加 入 索引 时 ， 并 不 直接 写 入 硬盘 而 是 先 放 在 内 存 中 ， 所 以 最 直接 提高 检索 速度 的 方 
法 就 是 提高 内 存 存放 索引 的 缓冲 区 的 大 小 。 具 体 缓冲 区 的 大 小 设置 需要 根据 实际 情况 而 定 。 如 图 
5.5 所 示 为 Lucene 全 文 索引 及 检索 过 程 的 描述 。 






































f \ NN 
查询 关键 字 源 文件 
查询 分 析 器 语言 分 析 器 

QueryParser Analyzer 
查询 器 索引 器 
Searcher Indexer 

y 索引 文件 

查询 结果 Document 


5.5 ”Lucene 全 文 索引 及 检索 过 程 示意 图 
(3) Lucene 和 其 他 全 文 检索 的 区 别 


传统 的 查找 技术 是 通过 逐次 匹配 内 存 中 的 文本 实现 的 ， 即 顺序 查找 。 对 文档 集合 中 的 信息 进 
行 少量 预 处 理 或 不 做 处 理 ， 这 种 方法 只 适合 文档 较 少 的 情况 ， 虽 然 结构 简单 ， 易 实现 ， 但 检索 速 
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度 比 较 慢 ， 尤 其 在 处 理 海量 数据 和 模糊 查询 时 有 着 明显 不 足 。 当 信息 量 在 TB 级 别 时 ， 查 找 的 速 
度 是 无 法 忍受 的 。Lucene 通过 特殊 的 索引 结构 实现 了 传统 检索 不 擅长 的 全 文 索引 机 制 ， 这 也 是 
Lucene 快速 发 展 的 原因 之 一 。 表 5.2 所 示 为 对 Lucene 和 其 他 全 文 检索 的 比较 。 

表 5.2 Lucene 与 其 他 全 文 检索 的 比较 
Lucene 其 他 开源 全 文 检索 系统 








增 量 索引 | 可 以 进行 增 量 的 索引 〈Append) ， 可 以 对 于 大 量 数据 进行 批 | 很 多 系统 只 支持 批量 的 索 
和 批量 索 | 量 索引 并 且 接口 设计 用 于 优化 批量 索引 和 人 小 批量 的 增 量 索引 | 引 有 时 数据 源 有 一 点 增加 也 
引 需要 重建 索引 
数据 源 Lucene 没有 定义 具体 的 数据 源 ， 而 是 一 个 文档 的 结构 ， 因 此 | 很 多 系统 只 针对 网 页 缺乏 其 
可 以 非常 灵活 地 适应 各 种 应 用 (只 要 前 端 有 合适 的 转换 器 把 数 | 他 格式 文档 的 灵活 性 
据 源 转换 成 相应 结构 ) 
索引 内 容 | Lucene 的 文档 是 由 多 个 字段 组 成 的 ， 甚 至 可 以 控制 哪些 字段 | 缺乏 通用 性 ， 索 引 整 个 文档 
抓 取 需要 进行 索引 ， 哪 些 字段 不 需要 索引 ， 近 一 步 索引 的 字段 也 分 
为 需要 分 词 和 不 需要 分 词 的 类 型 : 


需要 进行 分 词 的 索引 ， 比 如 标题 、 文 章 内 容 字段 

不 需要 进行 分 词 的 索引 ， 比 如 作者 /日 期 字段 

语言 分 析 | 通过 语言 分 析 器 的 不 同 扩展 实现 : 

可 以 过 滤 掉 不 需要 的 词 : an the of 等 ， 

西 文 语法 分 析 : 将 jumps jumped jumper 都 归结 成 jump 进行 索 
引 /检索 

非 英 文 支持 : 对 亚洲 语言 ， 阿 拉 伯 语言 的 索引 支持 
查询 分 析 | 通过 查询 分 析 接 口 的 实现 ， 可 以 定制 自己 的 查询 语法 规则 ， 比 
如 多 个 关键 词 之 间 的 “+”、“-”、“and” 和 “or” 关 系 等 
并 发 访问 | 能 够 支持 多 用 户 的 使 用 


表 5.3 所 示 为 Lucene 全 文 索引 与 数据 库 模 糊 查询 的 比较 。 


缺乏 通用 接口 实现 














表 5.3 Lucene 全 文 索引 与 数据 库 模糊 查询 的 比较 
Lucene 全 文 索引 引擎 数据 库 
将 数据 源 中 的 数据 都 通过 全 文 索引 | 对 于 LIKE 查询 来 说 ， 数 据 传统 的 索引 是 根本 用 不 





建立 反 向 索引 上 的 。 数据 需要 逐个 便利 记录 进行 GREP 式 的 模糊 
匹配 ， 比 有 索引 的 搜索 速度 要 有 多 个 数量 级 的 下 降 


使 用 like "%net%" 会 把 netherlands 也 匹配 出 来 。 多 
个 关键 词 的 模糊 匹配 : 使 用 like "%com%net%" 就 不 
能 匹配 词 序 颠倒 的 xxxnet. .xxx.com 



















通过 词 元 〈term) 进行 匹配 ， 通 过 语言 
分 析 接口 的 实现 ， 可 以 实现 对 中 文 等 非 
英语 的 支持 











匹配 度 有 匹配 度 算法 ， 将 匹配 程度 〈 相 似 度 ) | 没有 匹配 程度 的 控制 : 比如 有 记录 中 net 出 现 5 词 
比较 高 的 结果 排 在 前 面 和 出 现 1 次 的 ， 结 果 是 一 样 的 
结果 输出 通过 特别 的 算法 ， 将 匹配 度 最 高 的 头 | 返回 所 有 的 结果 集 ， 在 匹配 条 目 非常 多 的 时 候 〈 比 






100 条 结果 和 输出， 结果 集 是 缓冲 式 的 小 
批量 读 取 的 


如 上 万 条 ) 需要 大 量 的 内 存 存放 这 些 临 时 结果 集 
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( 续 表 ) 





Lucene 全 文 索引 引擎 数据 库 





可 定制 性 通过 不 同 的 语言 分 析 接 口 实现 ， 可 以 方 | 没有 接口 或 接口 复杂 ， 无 法 定制 
便 地 定制 出 符合 应 用 需要 的 索引 规则 
(包括 对 中 文 的 支持 ) 





结论 高 负载 的 模糊 查询 应 用 ， 需 要 负责 的 模 | 使 用 率 低 , 模糊 匹配 规则 简单 或 者 需要 模糊 查询 的 
糊 查询 的 规则 ， 索 引 的 资料 量 比较 大 ”| 资料 量 少 


大 部 分 的 搜索 〈 数 据 库 ) 引擎 都 是 用 B 树 结构 来 维护 索引 ， 索 引 的 更 新 会 导致 大 量 的 IO 操 
作 ，Lucene 在 实现 中 ， 对 此 稍微 有 所 改进 : 不 是 维护 一 个 索引 文件 ， 而 是 在 扩展 索引 的 时 候 不 断 
创建 新 的 索引 文件 ， 然 后 定期 把 这 些 新 的 小 索引 文件 合并 到 原先 的 大 索引 中 针对 不 同 的 更 新 策 
略 ， 批 次 的 大 小 可 以 调整 )， 这 样 在 不 影响 检索 的 效率 的 前 提 下 ， 提 高 了 索引 的 效率 。 

2. Nutch 

Nutch 是 一 个 用 Java 语言 实现 的 开放 源 代码 的 Web 搜索 引擎 ， 是 以 Lucene 为 基础 实现 的 搜 
索引 擎 应 用 程序 Lucene 为 Nutch 提供 了 文本 索引 和 查询 服务 的 APL 而 Nutch 在 Lucene 的 基础 
上 实现 了 网 页 收集 ， 因 此 Nutch 在 总 体 架构 上 分 为 网 页 收集 、 建 立 索 引 和 查询 服务 三 个 部 分 。 


e@ 网 页 收集 程序 通过 定期 收集 和 增 量 收集 方式 从 互联 网 中 抓 取 网 页 并 将 原始 网 页 建立 索引 
存 入 数据 库 中 。 

@ 建立 索引 程序 则 从 抓 取 过 来 的 网 页 提取 其 中 的 URL、 标 题 、 内 容 等 关键 词 ， 将 不 同 格式 
的 数据 源 转换 成 其 内 部 可 以 识别 的 文件 格式 ， 然 后 建立 倒 排 文件 ， 即 用 文档 中 的 关键 词 作 
为 索引 ， 文 档 作为 索引 目标 的 一 种 结构 ， 从 而 建立 并 维护 索引 库 。 

e@ 查询 服务 程序 接收 用 户 提交 的 查询 词 条 ， 加 以 分 词 与 过 滤 ， 在 索引 库 及 数据 库 中 搜索 相应 
的 网 页 ， 并 按照 其 内 部 评分 算法 对 结果 进行 排序 ， 返 回 结果 。 


如 图 5.6 所 示 为 Nutch 结构 图 。 








图 5.6 Nutch 结构 图 
由 于 Nutch 没有 商业 目的 ， 对 学 术 和 政府 类 站 点 的 搜索 来 说 ， 有 着 商业 搜索 引擎 无 法 比拟 的 
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优势 。 因 为 它 能 给 用 户 显示 一 个 公平 的 排序 结果 。Nutch 开源 的 特点 ， 吸 引 了 许多 研究 者 ， 对 它 
的 排序 算法 也 进行 着 不 断 的 研究 。 因 为 Nutch 极 易 扩 展 ， 研 究 者 可 以 随意 复制 和 修改 源 程序 ， 同 
时 也 可 以 将 其 集成 到 用 户 应 用 程序 中 去 ， 为 用 户 提供 更 好 的 查询 服务 。 概 括 来 说 ，Nutch 搜索 引 
擎 特点 总 结 如 下 。 

e 高 透明 度 ，Nutch 属于 开源 程序 ， 所 以 任何 单位 或 个 人 都 可 以 查看 分 布 式 搜索 引擎 的 工作 

原理 和 工作 过 程 。 
@ 可 扩展 性 ，Nutch 程序 设置 灵活 ， 可 以 根据 用 户 需求 进行 定制 。 
e 高 稳定 性 ，Nutch 通过 长 时 间 实 际 应 用 ， 结 果 表 明 运 行 非常 稳定 。 


如 图 5.7 所 示 为 Nutch 的 工作 流程 




















-mm "| 内 容 
Word| [HTML| [PDF 























5.7 ”Nutch 的 工作 流程 


3. Solr 


作为 Apache 下 基于 Java 的 文本 搜索 引擎 库 Lucene 的 一 个 子 项 目 ，Solr 采用 Java5 开发 ， 通 
过 对 Lucene API 的 扩展 ， 形 成 了 一 个 独立 、 高 效率 、 高 并 发 的 企业 级 搜索 应 用 服务 器 。Solr 提供 
了 比 Lucene 更 为 丰富 的 查询 语言 和 功能 同时 实现 了 可 配置 、 可 扩展 并 对 查询 性 能 进行 了 优化 ， 
有 完善 的 功能 管理 界面 易于 加 入 到 Web 应 用 程序 中 。 Solr 支持 多 种 输出 格式 (包括 XML/XSLT 
和 JSON 格式 ) 用 户 通过 HTTP 方式 与 Solr 交互 ，HTTP GET 操作 提出 查找 请 求 ， 并 得 到 XML 
格式 的 返回 结果 ， 提 交 XML 格式 的 文档 ， 而 由 Solr 生成 索引 文件 。Solr 具备 如 下 特点 。 


e。 基于 标准 的 开放 接口 :Solr 搜索 服务 器 支持 通过 XML、JSON、HTTP 查询 和 获取 结果 。 
易 管 理 与 配置 : Solr 可 以 通过 Web 页 面 管理 ， 数 据 以 XML 输出 ，Solr 配置 通过 XML 完 
成 。 
高 效率 分 组 (Facets ) : 高 效率 搜索 结果 自动 分 类 ， 用 户 可 以 按照 类 型 、 时 间 等 进行 分 组 。 
高 亮 功 能 : 对 匹配 的 字符 自动 在 搜索 结果 中 高 亮 显 示 。 

可 伸缩 性 : 快速 增 量 更 新 和 快照 分 发 /复制 到 其 他 服务 器 ， 支 持 多 种 方式 的 缓存 。 
灵活 的 插件 体系 : 新 功能 能 够 以 插件 的 形式 方便 地 添加 到 Solr 服务 器 上 。 

分 布 式 搜索 支持 单 台 或 者 多 台 服 务 器 索引 、 搜 索 ， 大 的 索引 可 以 分 割 成 多 个 小 部 分 , 通 
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过 Solr 一 次 搜索 多 台 服 务 器 ， 通 过 分 布 式 搜索 来 提高 效率 。 
数据 导入 工具 : 数据 库 和 其 他 结构 化 数据 源 都 可 以 导入 、 映 射 和 转化 为 Lucene 的 索引 格 
式 。 


5.3.2 ”数据 分 析 相 关 技术 实现 与 工具 


海量 数据 处 理 技术 已 经 得 到 一 定 的 发 展 ， 世 界 上 各 大 IT 公司 争 相 推出 自己 的 大 数据 分 析 工 
具 ， 其 中 包括 Goolge、SAS 等 。 
1.SAS 


(1) SAS 介绍 
SAS (Statistical Analysis System) 即 统计 分 析 系 统 ， 于 1966 年 由 美国 North Carolina 州立 大 
学 开始 研制 。 被 誉 为 数据 处 理 和 统计 分 析 领 域 的 国际 标准 软件 系统 ， 类 似 于 MATLAB 工具 箱 ， 
其 具有 多 个 模块 。 


基本 模块 : Base SAS 

统计 分 析 模 块 : SAS / STAT 

高 级 绘图 模块 : SAS /GRAPH 

矩阵 运算 模块 : SAS / IML 
运筹 学 和 线性 规划 模块 : SAS / OR 

经 济 预测 和 时 间 序 列 分 析 模 块 : SAS /ETS 等 


(2) SAS 企业 级 智能 平台 的 主要 特色 


一 致 : 能 够 在 整个 企业 内 对 元 数据 进行 整合 共享 和 集中 管理 , 全 面 了 解 企 业 的 真实 情况 ， 
消除 信息 竖井 以 及 相关 的 信息 维护 成 本 。 


® 开放 : 与 各 种 数据 和 元 数据 源 整合 ， 跨 越 各 种 孤立 的 IT 环境 为 信息 流 提供 支持 。 
® 统一 : 跨越 组 件 和 应 用 共享 通用 的 安全 和 管理 服务 、 数 据 存 储 和 管理 功能 、 查 询 和 报表 工 


具 、 分 析 工具 包 、 出 版 基础 架构 以 及 基于 Web 的 用 户 界 面 。 


@ 可 管理 : 通过 单一 管理 点 对 SAS 企业 级 智能 平台 的 所 有 要 素 进 行 集 中 管理 。 
e@ 基于 标准 : 支持 行业 标准 协议 、 编 程 语言 、 模 型 和 通信 接口 。 
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可 扩展 : 能 够 让 客户 通过 标准 开发 环境 ( 例如 Java ) 和 完善 的 应 用 编程 接口 (API) 开发 
定制 的 解决 方案 。 

可 移动 : 能 够 根据 不 断 变 化 的 增长 和 维护 需求 将 应 用 在 系统 和 平台 之 间 进 行 移动 。 

可 扩展 : 企业 级 的 网 格 计算 功能 以 最 有 效 的 方式 对 所 有 计算 资源 进行 利用 。 

兼容 : 与 企业 的 IT 实践 、 技 术 、 方 法 和 基础 架构 兼容 ， 充 分 利用 客户 现 有 的 技术 投资 。 
能 够 满足 未 来 需求 : 可 扩展 性 可 以 满足 未 来 增长 需求 ; 可 定制 性 能 够 支持 新 的 特殊 应 用 ; 
开放 性 和 基于 标准 能 够 支持 尚未 定义 的 未 来 技术 。 
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(3) 高 性 能 分 布 式 分 析 

高 性 能 分 析 环 境 是 用 户 可 以 充分 利用 IT 投资 ， 同 时 克服 原 有 架构 的 约束 ， 从 大 数据 资产 中 
产生 高 价值 的 洞察 。 以 下 列 出 了 三 种 分 布 式 技术 ， 合 理 地 组 合 利用 这 些 技 术 ， 可 以 满足 不 断 发 展 
的 业务 需求 。 


e@ SAS In-Memory Analytics ( 内存 分 析 ) 





大 数据 和 复杂 的 分 析 运 算 都 在 内 存 中 进行 处 理 ， 并 分 布 到 多 个 专用 节点 上 来 执行 ， 从 而 生成 
高 度 准确 的 洞察 ， 以 近 实 时 的 方式 来 解决 复杂 问题 。 


e@ SAS In-Database ( 库 内 分 析 ) 


数据 整合 与 分 析 功 能 都 是 在 数据 库 内 执行 的 ， 无 需 数据 迁移 和 转换 ， 就 可 以 更 好 地 进行 数据 
E， 加 快 获得 洞察 的 速度 。 


e SAS Grid Computing ( 网 格 计算 ) 


SAS 作业 是 在 共享 的 集中 管理 的 IT 资源 池 中 处 理 ， 在 提高 效率 的 同时 ， 也 降低 了 成 本 ， 带 
来 更 高 的 性 能 。 

SAS 采用 这 些 高 性 能 技术 来 解决 大 量 的 业务 问题 ， 展 开 各 种 分 析 ， 包 括 数据 可 视 化 、 数 据 探 
索 以 及 模型 的 开发 与 部 署 。 借 助 SAS 高 性 能 分 析 的 灵活 性 和 扩展 能 力 ， 不 管 数据 量 有 多 大 ， 也 不 
管 数据 和 分 析 方 法 有 多 复杂 ，SAS 都 能 很 好 地 完成 任务 。 

2. Google Dremel 

BigQuery 是 真正 为 大 数据 而 生 的 企业 级 云 计 算 产 品 ， 其 核心 是 云 平 台 的 一 项 基础 服务 
(PaaS), 用 于 对 TB 级 别 的 大 数据 进行 实时 的 分 析 处 理 。 单 纯 从 技术 上 来 看 ，BigQuery 就 是 一 个 
在 云端 的 SQL 服务 类 SQL)， 提 供 对 海量 数据 的 实时 分 析 : BigQuery 查询 基于 Dremel 技术 。 

Dremel 是 一 个 用 于 分 析 只 读 典 套数 据 的 可 伸缩 、 交 互 式 ad-hoc 查询 系统 。 通过 结合 多 层级 树 
状 执行 过 程 和 列 状 数据 结构 ， 它 能 做 到 几 秒 内 完成 万 亿 行 数据 之 上 的 聚合 查询 。 此 系统 可 伸缩 至 
成 千 上 万 的 CPU 和 PB 级 别 的 数据 ， 而 且 在 Google 已 有 几 千 有 用户。 下面 将 对 Dremel 进行 详细 介 
绍 。 

(1) 简介 

大 规模 分 析 型 数据 处 理 在 互联 网 公司 乃至 整个 行业 中 应 用 已 经 越 来 越 广泛 ， 尤 其 是 因为 目前 
已 经 可 以 用 廉价 的 存储 来 收集 和 保存 海量 的 关键 业务 数据 。 如 何 让 分 析 师 和 工程 师 便捷 地 利用 这 
些 数据 也 变 得 越 来 越 重要 ;在 数据 探测 、 监 控 、 在 线 用 户 支持 、 快 速 原型 、 数 据 管 道 调试 以 及 其 
他 任务 中 ， 交 互 的 响应 时 间 一 般 都 会 造成 本 质 的 区 别 。 

执行 大 规模 交互 式 数据 分 析 对 并 行 计算 能 力 要 求 很 高 。 例 如 ， 如 果 使 用 普通 的 硬盘 ， 希 望 在 
1 秒 内 读 取 1TB 压缩 的 数据 ， 则 需要 成 千 上 万 块 硬盘 。 相 似 的 ，CPU 密集 的 查询 操作 也 需要 运行 
在 成 千 上 万 个 核心 上 。 在 Google， 大 量 的 并 行 计算 是 使 用 普通 PC 组 成 的 共享 集群 完成 的 。 一 个 
集群 通常 会 部 署 大 量 共 享 资源 的 分 布 式 应 用 ， 各 自 产 生 不 同 的 负载 ， 运 行 在 不 同 硬件 配置 的 机 器 


2 
hr 
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上 。 一 个 分 布 式 应 用 的 单个 工作 任务 可 能 会 比 其 他 任务 花费 更 多 的 时 间 ， 或 者 可 能 由 于 故障 或 者 
被 集群 管理 系统 取代 而 永远 不 能 完成 。 因 此 ， 处 理 好 异常 、 故 障 是 实现 快速 执行 和 容错 的 重要 因 

互联 网 和 科学 计算 中 的 数据 经 常 是 独立 的 、 互 相 没 有 关联 的 。 因 此 ， 在 这 些 领域 一 个 灵活 的 
数据 模型 是 十 分 必要 的 。 在 编程 语言 中 使 用 的 数据 结构 、 分 布 式 系统 之 间 交 换 的 消息 、 结 构 化 文 
档 等 ， 都 可 以 用 嵌 套 式 表达 法 来 很 自然 地 描述 。 规 格 化 、 重 新 组 合 这 些 互 联网 规模 的 数据 通常 是 
代价 昂贵 的 。 嵌 套数 据 模型 成 为 了 大 部 分 结构 化 数据 在 Google 处 理 的 基础 。 

Google 支持 在 普通 PC 组 成 的 共享 集群 上 对 超大 规模 的 数据 集合 执行 交互 式 查询 。 不 像 传统 
的 数据 库 ， 它 能 够 操作 原 位 嵌 套 数据 。 原 位 意味 着 在 适当 的 位 置 访问 数据 的 能 力 。 比 如 ， 在 一 个 
分 布 式 文件 系统 〈 比 如 GFS) 或 者 其 他 存储 层 (比如 Bigtable )。 查 询 这 些 数据 一 般 需要 一 系列 的 
MapReduce (MR) 任务 ， 而 Dremel 可 以 同时 执行 很 多 ， 而 且 执 行 时 间 比 MR 小 得 多 。Dremel 不 
是 为 了 成 为 MR 的 替代 品 ， 而 是 经 常 与 它 协同 使 用 来 分 析 MR 管道 的 输出 或 者 创建 大 规模 计算 的 
原型 系统 。 

Dremel 从 2006 起 投入 使 用 并 在 Google 有 几 千 用 户 。 多 种 多 样 的 Dremel 实例 被 部 署 在 公司 
里 ， 排 列 着 成 千 上 万 个 节点 。 使 用 此 系统 的 地 方 包括 : 


分 析 网 络 文档 

追踪 Android 市 场 应 用 程序 的 安装 数据 
Google 产品 的 崩溃 报告 分 析 

Google Books 的 OCR 结果 

垃圾 邮件 分 析 

Google Maps 的 地 图 部 件 调试 

托管 Bigtable 实例 中 Tablet 的 迁移 
Google 分 布 式 构建 系统 中 的 测试 结果 分 析 
大 量 硬盘 的 磁盘 IO 统计 信息 

Google 数据 中 心 上 运 行 的 任务 的 资源 监控 
Google 代码 库 的 符号 和 依赖 关系 分 析 


Dremel 基于 互联 网 搜索 和 并 行 DBMS 的 概念 。 首 先 ， 它 的 架构 借鉴 了 用 在 分 布 式 搜索 引擎 
中 的 服务 树 概念 。 如 一 个 Web 搜索 请 求 ， 查 询 请 求 被 推 入 此 树 、 在 每 个 步骤 被 重 写 。 通 过 聚合 从 
下 层 树 节点 中 收 到 的 回复 ， 不 断 装 配 查询 的 最 终结 果 。 其 次 ，Dremel 提供 了 一 个 高 级 、 类 SQL 
的 语言 来 表达 ad-hoc 查询 。 与 Pig 和 Hive 对 照 ， 它 使 用 自己 的 技术 执行 查询 ， 而 不 是 转换 为 MR 
任务 。 

最 关键 的 是 ，Dremel 使 用 了 一 个 column-striped 的 存储 结构 ， 使 得 它 能 够 从 二 级 存储 中 读 取 
较 少 数据 并 且 通 过 更 廉价 的 压缩 减少 CPU 消耗 。 列 存储 曾 被 采用 来 分 析 关 系 型 数据 , 但 是 还 没有 
推广 到 嵌 套 数据 模型 上 。 这 里 的 列 状 存储 格式 在 Google 已 经 有 很 多 数据 处 理工 具 支 持 , 包括 MR、 
Sawzall 以 及 FlumeJava。 
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(2) 实例 背景 

假设 一 个 场景 ， 来 说 明 交 互 式 查询 处 理 的 必要 性 ， 以 及 它 在 数据 管理 生态 系统 上 怎么 定位 。 
假设 某 公 司 的 员工 Wendy， 想 到 一 个 新 奇 的 点 子 ， 她 想 从 Web 网 页 中 提取 新 类 型 的 Signals。 为 
此 运行 一 个 MR 任务 ， 分 析 输 入 数据 然后 产生 这 种 Signals 的 数据 集合 ， 在 分 布 式 文件 系统 上 存 
储 这 数 十 亿 条 记录 。 为 了 分 析 她 实验 的 结果 ， 启 动 Dremel 然后 执行 几 个 交互 式 命令 : 


DEFINE TABLE t AS /path/to/data/* 
SELECT TOP(signall, 100), COUNT(*) FROM t 


她 的 命令 只 需 几 秒 钟 就 执行 完毕 。 她 也 运行 了 几 个 其 他 的 查询 来 证 实 她 的 算法 是 正确 的 。 她 
发 现 Signals 中 有 非 预期 的 情况 ， 于 是 编写 了 一 个 FlumeJava 程序 执行 更 加 复杂 的 分 析 式 计算 。 一 
且 这 个 问题 解决 了 ， 就 建立 一 个 管道 ， 持 续 地 处 理 输入 数据 。 然 后 她 编写 了 一 些 SQL 查询 来 跨 维 
度 地 聚合 管道 的 输出 结果 ， 将 它们 添加 到 一 个 交互 式 的 Dashboard， 其 他 工程 师 能 非常 快速 地 定 
位 和 查询 结果 。 

上 述 实例 要 求 在 查询 处 理 器 和 其 他 数据 管理 工具 之 间 互 相 操作 。 第 一 个 组 成 部 分 是 一 个 通用 存 
储 层 。Goosle File System (GFS) 是 Google 公司 中 广泛 使 用 的 分 布 式 存储 层 。GFS 使 用 元 余 复 制 来 
保护 数据 不 受 硬盘 故障 影响 ， 即 使 出 现 掉队 者 〈Stragglers) 也 能 达到 快速 响应 时 间 。 对 原 位 数据 管 
理 来 说 ， 一 个 高 性 能 的 存储 层 是 非常 重要 的 。 它 允许 访问 数据 时 不 消耗 太 多 时 间 在 加 载 阶段 。 这 个 
要 求 也 导致 数据 库 在 分 析 型 数据 处 理 中 不 经 常 使 用 。 另 外 一 个 好 处 是 ， 在 文件 系统 中 能 使 用 标准 工 
有 具 便捷 的 操作 数据 ， 比 如 , 迁移 到 另外 的 集群 ， 改 变 访问 权限 , 或 者 基于 文件 名 定义 一 个 数据 子 集 。 
第 二 个 构建 互相 协作 的 数据 管理 组 件 的 要 素 ， 是 一 个 共享 的 存储 格式 。 列 状 存储 已 经 证 明了 它 适用 
于 扁平 的 关系 型 数据 ， 但 是 使 它 适 用 于 Google 则 需要 适 配 到 一 个 嵌 套 数据 模型 。 

(3) 数据 模型 

本 部 分 将 介绍 Dremel 的 数据 模型 以 及 其 他 一 些 术 语 。 这 种 在 分 布 式 系统 中 经 常 面 对 的 数据 结构 
在 Google 中 广泛 使 用 ， 也 提供 了 开源 实现 。 这 种 类 型 是 基于 强 类 型 嵌 套 记录 的 。 它 的 抽象 语法 是 : 

T=dom|<Al: r[*|?],...,An : 7x[*|?]> 

Tt 是 一 个 原子 类 型 (一 个 int、 一 个 string 等 ， 比 如 DocId) 或 者 记录 类 型 (指向 一 个 子 结构 ， 
比如 Name)。 在 dom 中 原子 类 型 包含 整 型 、 浮 点 数 、 字符 串 等 类 型 。 记录 则 由 一 到 多 个 字段 组 成 。 
字段 i 在 一 个 记录 中 命名 为 Ai 以 及 一 个 标签 (比如 “?” 或 “*”， 指明 该 字段 是 可 选 的 或 重复 的 )。 
重复 字段 (*) 表示 在 一 个 记录 中 可 能 出 现 多 次 ， 是 多 个 值 的 列表 ,字段 出 现 的 顺序 是 非常 重要 的 。 
可 选 字 段 (?) 可 能 在 记录 中 不 出 现 。 如 果 不 是 重复 字段 也 不 是 可 选 字段 ， 则 该 字段 在 记录 中 必须 
有 值 ， 有 且 仅 有 一 个 。 

实例 1 


DocId: 10 
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以 上 描述 了 一 个 叫 Document 的 Schema， 表 示 一 个 网 页 。 一 个 网 页 文档 必 有 整 型 Docld 和 可 


选 的 Links 属性 ， 包 含 Forward 和 Backword 列表 ， 列 表 中 每 一 项 代表 其 他 网 页 的 Docld。 一 个 网 
页 能 有 多 个 名 字 (Name)， 表 示 不 同 的 URL。 名 字 包 含 一 系列 Code 和 (可 选 ) Country 的 组 合 (也 
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就 是 Language)。 上 述 的 两 个 数据 实例 是 基于 固定 模型 的 ， 模 型 的 字段 定义 按照 树 状 层级 。 一 个 
炭 套 字段 的 完整 路 径 使 用 简单 的 点 绥 符 号 表示 ， 如 Name.Language.Code。 

性 套数 据 模型 为 Google 的 序列 化 、 结 构 化 数据 黄 定 了 一 个 平台 无 关 的 可 扩展 机 制 。 而 且 有 为 
C++、JjJava 等 语言 打造 的 代码 生成 工具 。 通 过 使 用 标准 二 进 制 on-the-wire 结构 ， 实 现 跨 语 言 互 操 
作 性 ， 字 段 值 按 它 们 在 记录 中 出 现 的 次 序 被 顺序 地 排列 。 因 此 ， 一 个 Java 编写 的 MR 程序 能 利用 
一 个 C++ 库 暴露 的 数据 源 。 如 果 记录 被 存储 在 一 个 列 状 结构 中 ， 快 速 装 配 就 成 为 了 MR 和 其 他 数 
据 处 理工 具 之 间 互 操作 性 的 重要 因素 。 

如 果 要 按照 列 式 存储 存储 以 上 模型 ， 总 共 要 存储 的 有 6 列 : 








Document.Docld 
Document.Links.Backward 
Document.Links.Forward 
Document.Name.Language.Code 
Document.Name.Language.Country 
Document.Name.Url 


(4) 列 式 存储 


根据 实例 表格 中 的 行 式 存储 来 看 可 以 将 内 部 数据 转换 为 列 式 存储 一 一 Dremel 中 的 实际 存储 
格式 。 如 下 所 示 为 上 一 节 实 例 的 列 式 存储 格式 。 


(a) DocID 





(b) Name.Url 





MA do | 
7 1 


4 
1 1 
2 











http://C 





(c) Links.Forward 

















Value R D 
20 0 本 
40 1 入 
60 1 号 
80 0 4 
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(d) Links.Backward 














Value R D 
NULL 0 1 
10 0 溉 
30 1 让 





(e) Name.Language.Code 








如 果 是 关系 型 数据 ， 而 不 是 嵌 套 的 结构 ， 存 储 的 时 候 可 以 将 每 一 列 的 值 直接 排列 下 来 ， 不 用 

引入 其 他 的 概念 ， 也 不 会 丢失 数据 。 对 于 嵌 套 的 结构 ， 还 需要 两 个 变量 R_〈Repetition Level) 和 D 
(Definition Level) 才能 完整 无 损 地 存储 全 部 信息 。 

Dremel 的 列 式 存储 最 大 限度 地 分 离 了 每 个 列 ， 这 是 一 种 针对 快速 查询 海量 Column-base DB 
的 设计 方法 。 我 们 知道 在 BigTable 和 HBase 中 存储 的 多 是 海量 稀 牙 数据 ，Column 的 数量 可 能 很 
大 ， 但 每 次 查询 涉及 的 column 经 常 很 少 。Dremel 的 列 存 储 模 型 最 大 限度 地 减少 了 数据 访问 量 ， 
只 访问 需要 的 数据 。 除 “文件 存储 +MR”、“BigTable 存储 +RowKey 查询 +MR” 之 外 ，Dremel 又 
提供 了 多 一 种 存储 和 查询 方式 。 


(5) 按 行 存储 的 数据 转换 为 列 存储 

Dremel 使 用 的 是 新 定义 的 列 式 存储 数据 ， 因 此 需要 将 已 有 的 嵌 套 式 数据 PB》 转换 成 列 式 
存储 。Dremel 实际 上 是 为 每 一 列 生成 一 个 转换 器 《Writer)， 但 由 于 列 可 能 很 多 ， 而 且 是 稀 玻 矩 
阵 ， 为 了 避免 不 必要 的 浪费 ，Dremel 使 用 了 一 个 转换 树 (Tree of Writer)， 只 有 用 到 的 Writer 才 
会 被 挂 到 树 上 。 转 换 的 伪 代 码 如 下 : 
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(6) 查询 语言 
Dremel 的 查询 语言 (DSQL) 主要 是 基于 SQL 修改 的 。 DSQL 的 主要 特点 是 它 是 为 处 理 嵌 套 
式 数据 设计 的 ， 输 入 是 一 个 或 多 个 嵌 套 式 数据 表 ， 输 出 不 是 数据 集 ， 也 是 一 个 嵌 套 式 数 据 表 。 
DSQL 查询 语句 可 以 分 为 3 个 主要 部 分 。 


。 查询 内 容 (FROM 1t) 

表示 只 从 表 t 中 查询 数据 。 

日 查询 条 件 (WHERE 语句 ) 

可 以 用 正则 表达 式 、 大 于 、 小 于 、 等 于 等 。 
e 生成 结果 


用 原 嵌 套数 据 中 的 那些 字段 生成 结果 中 的 字段 。 
DSQL 非常 强大 ， 支 持 包 括 子 查询 、 内 联 聚 合 查 询 、top-k、joins 等 功能 。 
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(7) Dremel 查询 方式 

由 于 Dremel 使 用 上 述 的 查询 语句 ， 而 且 数据 是 只 读 的 , 会 密集 地 发 起 多 次 类 似 的 请 求 。 所 以 
可 以 保留 上 次 请 求 的 信息 ， 优 化 下 次 请 求 的 explain 过 程 。 如 图 5.8 所 示 为 Dremel 的 查询 过 程 及 
































系统 结构 。 
客户 端 查询 执行 树 
ll tl 
根 服务 器 
中 间 服 务 器 es OO 人 
. (CCGG 









































[| | 
叶子 服务 器 | 人 | A 
A 
M 





数据 存储 层 《 例 如 GFS》 

图 5.8 Dremel 系统 架构 以 及 内 部 节点 执行 图 

图 5.8 是 一 个 树 状 架构 。 当 Client 发 起 一 个 请 求 ， 根 节点 收 到 请 求 ， 根 据 metadata， 将 其 分 
解 到 枝叶 ， 直 到 位 于 数据 上 面 的 叶子 Server。 它 们 扫描 处 理 数据 ， 又 不 断 汇总 到 根 节点 。 对 于 请 


SELECT A, COUNT(B) FROM T GROUP BY A 











根 节点 收 到 请 求 , 会 根据 数据 的 分 区 请 求 , 将 请 求 变 成 可 以 拆 分 的 样子 。 原 来 的 请 求 会 变 为 : 

SELECT A, SUM(c) FROM (R1 UNION ALL ... Rn) GROUP BY A 

R1,…Rn 是 T 的 分 区 计算 出 的 结果 集 。 越 大 的 表 有 越 多 的 分 区 ， 越 多 的 分 区 可 以 越 好 地 支持 
并 发 。 

然后 再 将 请 求 切 分 ， 发 送 到 每 个 分 区 的 叶子 Server 上 面 去 ， 对 于 每 个 Server: 


Ri = SELECT A, COUNT(B) AS c FROM Ti GROUP BY A 





结构 集 一 定 会 比 原始 数据 小 很 多 ， 处 理 起 来 也 更 快 。 根 服务 器 可 以 很 快 地 将 数据 汇总 。 具 体 
的 聚合 方式 ， 可 以 使 用 现 有 的 并 行 数据 库 技术 。 

Dremel 是 一 个 多 用 户 的 系统 。 切 割 分 配 任务 的 时 候 ， 还 需要 考虑 用 户 优先 级 和 负载 均衡 。 对 
于 大 型 系统 ， 还 需要 考虑 容错 ， 如 果 一 个 叶子 Server 出 现 故 障 或 变 慢 ， 不 能 让 整个 查询 也 受到 明 
显影 响 。 
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通常 情况 下 ， 每 个 计算 节点 执行 多 个 任务 。 例 如 ， 技 巧 中 有 3000 个 叶子 Server， 每 个 Server 
使 用 8 个 线程 ， 就 可 以 有 24 000 个 计算 单元 。 如 果 一 张 表 可 以 划分 为 100 000 个 区 ， 就 意味 着 大 
约 每 个 计算 单元 需要 计算 5 个 区 。 在 执行 的 过 程 中 ， 如 果 某 一 个 计算 单元 太 忙 ， 会 另外 启动 一 个 
来 计算 。 这 个 过 程 是 动态 分 配 的 。 

对 于 GFS 这 样 的 存储 , 一 份 数据 一 般 有 3 份 拷贝 ， 计算 单元 很 容易 就 能 分 配 到 数据 所 在 的 节 
点 上 ， 和 典型 的 情况 可 以 到 达 95% 的 命中 率 。 

Dremel 还 有 一 个 配置 ， 就 是 在 执行 查询 的 时 候 ， 可 以 指定 扫描 部 分 分 区 ， 比 如 可 以 扫描 30% 
的 分 区 ， 在 使 用 的 时 候 ， 相 当 于 随机 抽样 ， 加 快 查询 。 

(8) Dremel 实验 
下 面 通 过 Dremel 与 MapReduce 的 实验 对 比 来 说 明 Dremel 的 优越 性 能 。 
表 5.4 所 示 为 本 次 实验 的 数据 相关 信息 。 























表 5.4 ”实验 数据 信息 
表 名 记录 数 大 小 (已 压缩 ) 列 数 数据 中 心 复制 数量 
型 85 billion 87TB 270 A 3x 
T 24 billion 13TB 530 A 3x 
T3 4billion 70TB 1200 A 3x 
T4 1+ trillion B 2x 
EE 1+ trillion B 3x 

















实验 内 容 是 常见 的 CountWords 测试 MR 和 Dremel 都 跑 在 3000 个 节点 上 。 查询 语句 如 下 : 
SELECT SUM(Count Words(txtField)) / COUNT(*) FROM T1 
如 图 5.9 所 示 为 数据 在 不 同 状态 下 所 花费 的 时 间 。 


执行 时 间 〈 秒 ) 





Dremel 


MapReduce MapReduce 
行 式 列 式 


5.9 测试 数据 在 不 同 状态 下 的 执行 时 间 
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使 用 列 式 存储 之 后 ， 访 问 的 数据 量 从 85T 减少 到 了 0.5T，MR 的 时 间 从 几 小 时 减少 到 了 几 分 
钟 。Dremel 的 查询 树 显然 更 加 优越 ， 将 查询 时 间 由 几 分 钟 缩短 到 了 十 几 秒 。 


(9) Dremel 与 Hadoop 
Dremel 相关 论文 中 已 经 明确 指出 ，Dremel 不 是 用 来 蔡 代 MapReduce， 而 是 和 其 更 好 的 结合 。 
Hadoop 的 Hive、Pig 无 法 提供 及 时 的 查询 , 而 Dremel 的 快速 查询 技术 可 以 给 Hadoop 提供 有 力 的 
补充 。 同 时 Dremel 可 以 用 来 分 析 MapReduce 的 结果 集 ， 只 需要 将 MapReduce 的 OutputFormat 
修改 为 Dremel 的 格式 , 就 可 以 在 几乎 不 引入 额外 开销 的 情况 下 , 将 数据 导入 Dremel。 使 用 Dremel 
来 开发 数据 分 析 模 型 ，MapReduce 来 执行 数据 分 析 模 型 。 


(10) Dremel 的 开源 实现 
Google Dremel 为 Google 内 部 使 用 ， 当 前 并 未 开源 ， 但 Apache 已 经 推出 Dremel 的 开源 版 本 
一 一 Drill。Drill 有 和 Dremel 相似 的 架构 和 能 力 。Drill 被 寄 希 望 于 为 Hadoop 提供 快速 查询 能 力 ， 
并 成 为 Hadoop 上 的 重要 组 成 部 分 。 
现在 Drill 的 目标 是 完成 初始 的 需求 和 架构 ， 完 成 一 个 初始 的 实现 。 这 个 实现 包括 一 个 执行 引 
擎 和 DrQL。 目 前 ，Drill 已 经 完成 的 需求 和 架构 设计 总 共 分 为 了 4 个 组 件 。 


ee Query language: 类 似 Google BigQuery 的 查询 语言 ， 支 持 谋 套 模型 ， 名 为 DrQL。 

® Low-lantency distribute execution engine: 执 行 引擎 ， 支 持 大 规模 扩展 和 容错 。 可 以 运行 在 上 
万 台 机 器 上 计算 数 以 PB 的 数据 。 

e Nested data format: 谈 套数 据 模型 ， 与 Dremel 类 似 。 也 支持 CSV、JSON、YAML 类 似 的 
模型 。 这 样 执行 引擎 就 可 以 支持 更 多 的 数据 类 型 。 

@ Scalable data source: 支持 多 种 数据 源 ， 现 阶段 以 Hadoop 为 数据 源 。 





(11) Dremel 的 特点 
e@ Dremel 是 一 个 大 规模 系统 


Dremel 在 一 个 PB 级 别 的 数据 集 上 面 ， 将 任务 缩短 到 秒 级 ， 无 疑 需要 大 量 的 并 发 。 磁 盘 的 顺 
序 读 速度 在 100MB/s 上 下 , 那么 在 1s 内 处 理 1TB 数据 , 意味 着 至 少 需 要 有 1 万 个 磁盘 的 并 发 读 。 
Google 一 向 善于 利用 廉价 机 建立 性 能 强大 的 集群 但 是 机 器 越 多 ， 出 问题 概率 越 大 ， 如 此 大 的 集群 
规模 ， 需 要 有 足够 的 容错 考虑 ， 保 证 整个 分 析 的 速度 不 被 集群 中 的 个 别 慢 〈 坏 ) 节点 影响 。 


e Dremel 是 MapReduce 交互 式 查询 能 力 不 足 的 补充 

Dremel 和 MapReduce 一 样 ，Dremel 也 需要 和 数据 运行 在 一 起 ， 将 计算 移动 到 数据 上 面 。 所 
以 它 需 要 GFS 这 样 的 文件 系统 作为 存储 层 。 在 设计 之 初 ，Dremel 并 非 是 MapReduce 的 替代 品 ， 
它 只 是 可 以 执行 非常 快 的 分 析 ， 在 使 用 的 时 候 ， 常 常用 它 来 处 理 MapReduce 的 结果 集 或 者 用 来 建 
立 分 析 原型 。 
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ee Dremel 的 数据 模型 是 谋 套 (Nested ) 的 


互联 网 数据 常常 是 非 关系 型 的 。Dremel 还 需要 有 一 个 灵活 的 数据 模型 ， 这 个 数据 模型 至 关 重 
要 。Dremel 支持 一 个 嵌 套 的 数据 模型 ， 类 似 于 Json。 而 传统 的 关系 模型 ， 由 于 不 可 避免 地 有 大 量 
的 Join 操作， 在 处 理 如 此 大 规模 的 数据 的 时 候 ， 往 往 是 有 心 无 力 的 。 


e Dremel 中 的 数据 是 用 列 式 存储 的 


使 用 列 式 存储 分 析 的 时 候 ， 可 以 只 扫描 需要 的 那 部 分 数据 ， 减 少 CPU 和 磁盘 的 访问 量 。 同 
时 列 式 存储 是 压缩 友好 的 ， 使 用 压缩 ,可 以 综合 CPU 和 磁盘 ， 发 挥 最 大 的 效能 。 对 于 关系 型 数据 ， 
如 果 使 用 列 式 存储 的 技术 比较 成 熟 ， 但 是 对 于 嵌 套 Cnested) 的 结构 ，Dremel 也 可 以 用 列 存储 。 
其 中 存储 技术 值得 借鉴 。 


ee Dremel 结合 了 Web 搜索 和 并 行 DBMS 技术 


首先 ，Dremel 借鉴 了 Web 搜索 中 的 “查询 树 ” 的 概念 ， 将 一 个 相对 巨大 复杂 的 查询 ， 分 割 
成 较 小 较 简单 的 查询 。 大 事 化 小 ， 小 事 化 了 ， 能 并 发 地 在 大 量 节点 上 跑 。 其 次 ， 与 并 行 DBMS 类 
似 ，Dremel 可 以 提供 一 个 SQL-like 的 接口 。 


5.3.3 ”数据 建 模 相 关 技术 实现 与 工具 


1. Sybase PowerDesigner 


(1) PowerDesigner 介绍 

PowerDesigner 是 Sybase 公司 的 CASE 工具 集 ， 使 用 它 可 以 方便 地 对 管理 信息 系统 进行 分 析 
设计 ， 它 几乎 包括 了 数据 库 模 型 设计 的 全 过 程 。 利 用 PowerDesigner 可 以 制作 数据 流程 图 、 概 念 
数据 模型 、 物 理 数 据 模型 ， 可 以 生成 多 种 客户 端 开发 工具 的 应 用 程序 ， 还 可 为 数据 仓库 制作 结构 
模型 ， 也 能 对 团队 设备 模型 进行 控制 。 它 可 配合 许多 流行 的 数据 库 设计 软件 ， 如 PowerBuilder、 
Delphi、VB 等 来 缩短 开发 时 间 并 使 系统 设计 更 优化 。 

PowerDesigner 系列 产品 提供 了 一 个 完整 的 建 模 解决 方案 ， 业 务 或 系统 分 析 人 员 、 设 计 人 员 、 
数据 库 管理 员 DBA 和 开发 人 员 可 以 对 其 裁剪 以 满足 他 们 的 特定 的 需要 ， 而 其 模块 化 的 结构 为 购 
买 和 扩展 提供 了 极 大 的 灵活 性 ， 从 而 使 开发 单位 可 以 根据 其 项 目的 规模 和 范围 来 使 用 他 们 所 需要 
的 工具 。 PowerDesigner 灵活 的 分 析 和 设计 特性 允许 使 用 一 种 结构 化 的 方法 有 效 地 创建 数据 库 或 数 
据 仓 库 , 而 不 要 求 严格 遵循 特定 的 方法 学 。 PowerDesigner 提供 了 直观 的 符号 表示 使 数据 库 的 创建 
更 加 容易 ， 并 使 项 目 组 内 的 交流 和 通信 标准 化 ， 同 时 能 更 加 简单 地 向 非 技术 人 员 展 示 数 据 库 和 应 
用 的 设计 。 

PowerDesigner 不 仅 加 速 了 开发 的 过 程 , 也 向 最 终 用户 提 供 了 管理 和 访问 项 目 信息 的 一 种 有 效 
的 结构 。 它 允许 设计 人 员 不 仅 创 建 和 管理 数据 的 结构 ， 而 且 开 发 和 利用 数据 的 结构 ， 针 对 领先 的 
开发 工具 环境 快速 地 生成 应 用 对 象 和 数据 敏感 的 组 件 。 开 发 人 员 可 以 使 用 同样 的 物理 数据 模型 查 
看 数据 库 的 结构 和 整理 文档 ， 以 及 生成 应 用 对 象 和 在 开发 过 程 中 使 用 的 组 件 。 应 用 对 象 生成 有 助 
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于 在 整个 开发 生命 周期 提供 更 多 的 控制 和 更 高 的 生产 率 。 


(2) PowerDesigner 的 模块 
PowerDesigner 包含 6 个 紧密 集成 的 模块 ， 允 许 个 人 和 开发 组 的 成 员 以 合算 的 方式 最 好 地 满 
足 他 们 的 需要 。 这 6 个 模块 如 下 。 


® _ PowerDesigner ProcessAnalyst 


用 于 数据 分 析 或 数据 发 现 。ProcessAnalyst 模型 易于 建立 和 维护 ， 并 可 用 在 应 用 开发 周期 中 确 
保 所 有 参与 人 员 之 间 顺 畅 地 通信 。 这 个 工具 使 用 户 能 够 描述 复杂 的 处 理 模型 以 反映 他 们 的 数据 库 
模型 。 通 过 表示 这 些 在 系统 中 的 处 理 和 描述 它们 交换 的 数据 ， 使 用 ProcessAnalyst 可 以 以 一 种 更 
加 自然 的 方式 描述 数据 项 。 


® PowerDesigner DataArchitect 


用 于 两 层 即 概念 层 和 物理 层 的 数据 库 设 计 和 数据 库 构 造 。DataArchitect 提供 概念 数据 模型 设 
计 ， 自 动 的 物理 数据 模型 生成 ， 非 规范 化 的 物理 设计 ， 针 对 多 种 数据 库 管理 系统 (DBMS ) 的 数 
据 库 生 成 ， 开 发 工具 的 支持 和 高 质量 的 文档 特性 。 使 用 其 逆向 工程 能 力 ， 设 计 人 员 可 以 得 到 一 个 
数据 库 结构 的 “蓝图 ” 用 于 文档 和 维护 数据 库 或 移植 到 一 个 不 同 的 DBMS 。 


® PowerDesigner AppModeler 


用 于 物理 数据 库 的 设计 和 应 用 对 象 及 数据 敏感 组 件 的 生成 。 通 过 提供 完整 的 物理 建 模 能 力 和 
利用 那些 模型 进行 开发 的 能 力 ，AppModeler 允许 开发 人 员 针 对 领先 的 开发 环境 ， 包 括 
PowerBuilder、Visual Basic、Delphi 2.0 和 Power++， 人 快速 地 生成 对 象 和 组 件 。 此 外 ，AppModeler 
还 可 以 生成 用 于 创建 数据 驱动 的 Web 站 点 的 组 件 使 开发 人 员 和 设计 人 员 同 样 可 以 从 一 个 DBMS 
发 布 “动态 ”的 数据 。 另 外 ，AppModeler 提供 了 针对 超过 30 个 DBMS 和 桌面 数据 库 的 物理 数据 
库 生 成 、 和 维护 和 文档 。 

® PowerDesigner MetaWorks 


通过 模型 的 共享 支持 高 级 的 团队 工作 的 能 力 。 这 个 模块 提供 了 所 有 模型 对 象 的 一 个 全 局 层次 
结构 的 浏览 视图 ， 以 确保 贯穿 整个 开发 周期 的 一 致 性 和 稳定 性 。MetaWorks 提供 了 用 户 和 组 的 说 
明定 义 以 及 访问 权限 的 管理 ， 包 括 模型 锁定 安全 机 制 。 它 还 包含 MetaBrowser， 一 个 灵活 的 字典 
浏览 器 ， 用 以 浏览 、 创 建 和 更 新 跨 项 目的 所 有 模型 信息 和 Powersoft ObjectCycle， 一 个 版 本 控制 
系统 。 


® PowerDesigner WarehouseArchitect 


用 于 数据 仓库 和 数据 集 市 的 建 模 和 实现 。WarehouseArchitect 提供 了 对 传统 的 DBMS 和 数据 
仓库 特定 的 DBMS 平台 的 支持 ， 同 时 支持 维 建 模特 性 和 高 性 能 索引 横 式 。 WarehouseArchitect 允 
许 用 户 从 众多 的 运行 数据 库 引 入 (逆向 工程 ) 源 信息 。WarehouseArchitect 维护 源 和 目标 信息 之 间 
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的 链接 追踪 ， 用 于 第 三 方 数据 抽取 和 查询 及 分 析 工 具 。WarehouseArchitect 提供 了 针对 所 有 主要 传 
统 DBMS， 诸 如 Sybase、Oracle、Informix 和 DB2， 以 及 数据 仓库 特定 的 DBMS (如 Red Brick 
Warehouse 和 ASIQ) 的 完全 数据 仓库 处 理 支持 。 


® PowerDesigner Viewer 


用 于 以 只 读 的 、 图 形 化 的 方式 访问 建 模 和 元 数据 信息 。Viewer 提供 了 对 PowerDesigner 所 有 
模型 信息 的 只 读 访问 ， 包 括 处 理 、 概 念 、 物 理 和 仓库 模型 。 此 外 ， 它 还 提供 了 一 个 图 形 化 的 查看 
模型 信息 的 视图 ，Viewer 提供 了 完全 的 跨 所 有 模型 的 报表 和 文档 功能 。 

(3) PowerDesigner 的 通用 特性 

e 需求 管理 

PowerDesigner 可 以 把 需求 定义 转化 成 任意 数量 的 分 析 及 设计 模型 ， 并 记录 需求 和 所 有 分 析 
及 设计 模型 的 改动 历史 ， 保 持 对 它们 的 跟踪 。Microsoft Word 导入 /导出 功能 使 业务 用 户 能 轻易 处 
理 流 程 工作 。 

e@ 文档 生成 

PowerDesigner 提供 了 Wizard 向 导 协 助 建立 多 模型 的 RTF 和 HTML 格式 的 文档 报表 。 项 目 
团队 中 非 建 模 成 员 同样 可 以 了 解 模型 信息 ， 增 强 整个 团队 的 沟通 。 

”影响 度 分 析 

PowerDesigner 模型 之 间 采 用 了 独特 的 链接 ， 与 同步 技术 进行 全 面 集成 ， 支 持 企业 级 或 项 目 


级 的 全 面 影响 度 分 析 。 从 业务 过 程 模型 、UML 面向 对 象 模型 到 数据 模型 都 支持 该 技术 ， 大 大 提高 
了 整个 组 织 的 应 变 能 力 。 


日 数据 映射 


PowerDesigner 提供 了 拖 放 方式 的 可 视 化 映射 工具 ， 方 便 、 快 速 及 准确 地 记录 数据 依赖 关系 。 
在 任何 数据 和 数据 模型 数据 与 UML 面向 对 象 模型 以 及 数据 与 XML 模型 之 间 建 立 支持 影响 度 分 
析 的 完整 的 映射 定义 、 生 成 持久 化 代码 以 及 数据 仓库 ETL 文件 。 


开放 性 支持 


PowerDesigner 支持 所 有 主流 开发 平台 : 支持 超过 60 种 〈 版 本 ) 关系 数据 库 管理 系统 ， 包 括 
最 新 的 Oracle、IBM、Microsoft、Sybase、NCR Teradata、MySQL 等 ， 支 持 各 种 主流 应 用 程序 开 
发 平台 ， 如 Java、J2EE、Microsoft.NET 〈C# 和 VB. NET)、Web Services 和 PowerBuilder， 支 持 
所 有 主流 应 用 服务 器 和 流程 执行 语言 ， 如 ebXML 和 BPEL4WS 等 。 


日 可 自 定义 
PowerDesigner 支持 从 用 户 界面 到 建 模 行为 以 及 代码 生成 的 客户 化 定制 。 支 持 用 于 模型 驱动 
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开发 的 自 定 义 转换 ， 包 括 : 对 UML 配置 文件 的 高 级 支持 、 可 自 定义 菜单 和 工具 栏 、 通 过 脚本 语 
言 实现 自动 模型 转化 、 通 过 COMAPI 和 DDL 实现 访问 功能 以 及 通过 模板 和 脚本 代码 生成 器 生成 
代码 。 

e@ 企业 知识 库 

PowerDesigner 的 企业 知识 库 是 存储 在 关系 数据 库 中 的 完全 集成 的 设计 时 知识 库 ， 具 有 高 度 
的 可 扩展 性 ， 便 于 远程 用 户 使 用 。 该 知识 库 提 供 以 下 功能 : 基于 角色 的 模型 和 子 模型 访问 控制 ， 
版 本 控制 和 配置 管理 、 模 型 与 版 本 的 变更 报告 以 及 全 面 的 知识 库 搜索 功能 。PowerDesigner 的 知 
识 库 还 可 以 存储 和 管理 任何 文档 ， 包 括 Project 文件 、 图 像 和 其 他 类 型 的 文档 。 


2. ERWin 


(1) ERWin 介绍 
ERWin 的 全 称 是 AllFuusin ERwin Data Modeler， 是 CA 公司 AllFuusin 品牌 下 的 数据 建 模 工 
具 。 支 持 各 主流 数据 库 系统 。 其 设计 图 支持 MS Office 的 直接 拷贝 。 


(2) ERWin 的 主要 特点 

日 结构 复杂 数据 的 可 视 化 

ERWin 提供 数据 库 结构 ， 管 理 界面 简单 。 

e 设计 层 架构 

ERWin 提供 了 独特 的 灵活 性 ， 从 逻辑 、 物 理 ， 其 至 更 高 级 别 类 型 出 发 以 创建 多 个 模型 层 。 用 


户 可 以 创建 完全 分 开 的 逻辑 和 物理 模型 ， 或 者 创建 逻辑 和 物理 模型 有 关联 ， 让 用 户 来 选择 最 适合 
的 实现 风格 。 


e 标准 的 定义 

可 重复 使 用 的 标准 ， 提 高 组 织 的 开发 能 力 并 有 效 地 管理 时 间 。 通 过 可 重复 使 用 的 模型 模板 、 
域 编 辑 器 、 命 名 标准 编辑 器 和 数据 类 型 标准 编辑 器 、ERWin 支持 标准 的 定义 和 维护 。 

。 大 型 模型 管理 

ERWin 通过 主题 领域 的 大 型 企业 级 模型 来 帮助 管理 图 表 。 这 些 图 形 的 意见 和 模型 可 视 化 ， 促 


进 不 同 利益 相关 者 和 组 织 在 信息 交流 方面 的 合作 。 此 外 ， 先 进 的 功能 如 自动 版 式 、 按 需 UI 组件 ， 
可 使 用 户 轻松 地 建立 大 型 可 视 化 模型 。 


e@ 数据 库 设计 的 一 代 


ERWin 允许 用 户 直接 从 视觉 模型 创建 数据 库 设计 从 而 提高 效率 ， 减 少 错误 。 业 界 领先 的 数据 
库 支 持 ， 包 括 优化 的 参照 完整 性 触发 器 模板 和 丰富 的 跨 数据 库 宏 语言 ， 使 建 模 人 员 定制 抽 发 、 脚 
本 和 存储 过 程 。 自 定义 的 模板 有 助 于 建立 一 个 模型 的 完整 的 物理 设计 与 下 一 代 的 定义 。 
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® 数据 仓库 和 数据 集 市 设计 


ERWin 支持 数据 仓库 的 特定 模式 (如 星 型 模型 和 雪花 三 维 建 模 ) 技术 ， 从 而 优化 了 分 析 需 要 
的 数据 仓库 。 它 还 捕捉 有 关 的 仓库 信息 ， 包 括 数据 源 、 转 换 逻 辑 和 数据 管理 规则 。 


本 章 小 结 


本 章 主 要 对 数据 的 查询 、 分 析 和 建 模 技 术 进 行 介绍 。 随 着 互联 网 时 代数 据 的 爆炸 式 增长 ， 海 
量 数据 相关 的 处 理 已 经 成 为 人 们 研究 的 重点 之 一 。 海 量 数据 的 查询 主要 是 针对 其 数据 量 大 ， 数 据 
格式 多 样 化 ， 以 及 数据 价值 密度 低 的 特点 ， 对 数据 中 有 价值 的 数据 进行 查询 、 提 取 ， 寻 找 用 户 感 
兴趣 的 数据 。 数 据 分 析 针 对 海量 数据 ， 对 海量 数据 中 有 价值 的 数据 进行 提取 分 析 ， 总 结 规律 ， 在 
数据 的 基础 上 形成 数据 价值 ， 为 用 户 所 用 。 数 据 建 模 技 术 是 对 已 有 的 海量 数据 的 存储 及 索引 进行 
建 模 ， 优 化 存储 与 查询 结构 ， 使 得 在 数据 的 存储 以 及 使 用 上 效率 提高 。 

在 本 章 中 ， 通 过 对 数据 查询 、 分 析 和 建 模 中 所 使 用 的 相关 技术 的 介绍 ， 直 观 地 展现 了 当今 数 
据 查 询 、 分 析 和 建 模 技 术 的 发 展 。 并 通过 介绍 数据 查询 、 分 析 以 及 建 模 技 术 的 相关 技术 与 工具 展 
示 海 量 数据 处 理 的 发 展 与 现状 。 
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第 二 篇 
大 数据 深入 篇 








第 6 章 
深 用 OSGi 框 染 构 建 可 伸缩 的 异 构 
数据 采集 平台 


大 数据 时 代 ， 信 息 量 庞大 ， 数 据 承 载 方式 也 千变万化 ， 异 构 数据 给 互联 网 带 来 更 多 色彩 的 同 
时 ,也 给 抽取 、 存 储 、 分 析 造 成 了 一 定 的 阻碍 ,例如 时 下 流行 的 社交 网 络 、 微 博 、 博 客 、RSS 新 
闻 聚 合 以 及 各 类 数据 服务 ， 如 何 把 这 些 异 构 数据 抽象 整合 ， 是 本 章 着 眼 的 核心 问题 。 

本 章 将 以 一 个 与 情 监控 系统 的 异 构 数据 采集 平台 为 实例 , 介绍 OSGi 的 基本 构建 方法 , 并 围绕 
该 异 构 数据 采集 平台 的 设计 与 实现 , 对 OSGi 在 构建 动态 部 署 的 可 伸缩 的 异 构 数据 采集 平台 中 的 设 
计 和 使 用 进行 介绍 。 























应 用 背景 


本 章 项 目 为 一 个 与 情 监控 系统 的 异 构 数据 采集 平台 。 

与 情 监 控 系 统 整合 互联 网 信息 采集 技术 及 信息 智能 处 理 技术 ， 通 过 对 互联 网 海量 信息 自动 抓 
取 、 自 动 分 类 聚 类 、 主 题 检测 、 专 题 聚焦 ， 实 现 用户 的 网 络 与 情 监测 和 新 闻 专 题 追 踪 等 信息 需求 ， 
形成 简报 、 报 告 、 图 表 等 分 析 结 果 ， 为 客户 全 面 掌握 群众 思想 动态 ， 做 出 正确 与 论 引 导 ， 提 供 分 
析 依 据 。 

与 情 监控 的 首要 过 程 即 为 信息 采集 ， 而 采集 前 端 需要 接 入 各 种 存储 方式 、 组 织 结构 、 信 息 形 
态 都 不 尽 相 同 的 数据 平台 ， 利 用 息 虫 等 逻辑 自动 抓 取 各 方 信息 ， 而 后 就 需要 对 这 些 异 构 的 数据 进 
行 解析 处 理 ， 以 供 最 后 的 自动 分 类 聚 类 、 主 题 检 测 、 专 题 聚焦 使 用 ， 实 现 对 网 络 与 情 监测 和 新 闻 
专题 追踪 等 信息 需求 。 

图 6.1 给 出 了 与 情 监控 系统 采集 平台 的 主要 流程 。 









实战 大 数据 








6.1 ”舆情 监控 数据 采集 平台 流程 


该 项 目 需要 实现 一 个 适应 多 平台 异 构 数据 不 断 变化 的 需求 的 采集 平台 , 因而 必须 满足 高 扩展 、 
可 伸缩 的 特性 ， 所 以 采用 插件 的 机 制 对 不 同 数据 提供 不 同 的 抓 取 方式 ， 并 且 通 过 标准 数据 接口 的 
形式 ， 对 数据 采集 后 的 解析 处 理 结果 进行 约束 规范 ， 得 到 统一 同 构 的 数据 类 型 ， 以 便于 与 情 监控 
系统 后 续 的 分 析 处 理 。 

图 62 给 出 了 本 章 项 目 异 构 数据 采集 平台 的 使 用 方式 。 





数据 采集 服务 器 集群 
图 62 异 构 数 据 采 集 平台 的 使 用 方式 


与 情 监控 系统 用 户 通过 浏览 器 ， 使 用 各 类 设备 接 入 系统 ， 对 系统 中 的 数据 采集 集群 服务 器 进 
行 操作 ， 并 按照 异 构 数据 的 需求 ， 定 制 与 情 信息 的 采集 插件 ， 通 过 满足 约定 的 插件 ， 可 以 采集 到 
统一 的 与 情 信息 ， 存 储 于 数据 库 中 ， 供 后 续 的 分 析 处 理 使 用 。 
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需求 分 析 与 总 体 设 计 


根据 上 一 节 内 容 的 项 目 应 用 背景 ， 我 们 针对 现 有 与 情 监控 系统 对 数据 采集 的 需求 做 了 调查 ， 
在 此 基础 上 发 现 ， 不 同 的 采集 系统 或 算法 有 其 不 同 的 实现 方式 ， 对 不 同 的 Web 页 面 也 有 不 同 的 
抽取 效果 与 效率 ， 所 以 各 有 其 优 缺 点 以 及 应 用 的 范围 。 


6.2.1 功能 需求 


为 了 满足 对 互联 网 大 数据 背景 下 异 构 数据 的 处 理 需求 ， 并 且 解 决 不 断 变 化 的 数据 格式 带 来 的 
系统 部 署 不 便 等 问题 ， 本 平台 的 功能 在 覆盖 了 完整 的 数据 抽取 、 解 析 与 存储 流程 的 同时 ， 提 供 了 
对 多 平台 数据 采集 进行 管理 和 动态 部 署 的 一 套 工具 。 

异 构 数据 抽取 和 存储 平台 ， 其 核心 功能 即 为 数据 抽取 与 存储 。 本 平台 为 了 实现 可 伸缩 、 可 扩 
展 的 插件 机 制 需要 引入 插件 框架 来 处 理 各 模块 间 的 调度 控制 功能 。 

采集 平台 的 主要 功能 分 为 以 下 部 分 。 
数据 抽取 : 对 不 同 平台 数据 进行 抽取 ， 提 供 相关 安全 授权 、 验 证 接 入 的 功能 。 
数据 解析 : 对 抽取 得 到 异 构 数 据 解析 后 输出 满足 存储 规定 格式 的 同 构 数据 。 
数据 存储 对 解析 后 数据 提供 存储 、 持 久 化 、 合 并 数据 库 等 功能 。 
插件 管理 : 处 理 以 上 功能 模块 间 的 监控 调度 控制 。 


如 图 6.3 所 示 为 本 项 目 平台 的 主要 功能 组 织 结构 。 


微 博 抽取 
数据 抽取 < HTML 抽 取 
- 0Auth 2.0 抽 取 


JSON 解 析 
数据 解析 XML 解析 
异 构 数据 HTML 解 析 


采集 平台 
Redis/NoSQL 
数据 存储 < JDBC/SQL 
File 
更 新 /添加 插件 
插件 管理 < 查看 插件 状态 
停止 /开启 插件 


6.3 主要 功能 组 织 结构 图 
。 数据 抽取 部 分 ， 微 博 、OAuth 2.0、HTML 等 功能 插件 为 本 平台 抽取 数据 所 需 的 基础 功能 ， 
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其 作用 是 为 用 户 自 定 义 抽取 逻辑 提供 验证 接口 以 简化 获得 原始 文本 的 操作 。 

® 数据 解析 部 分 ， 可 调用 各 类 文本 格式 的 解析 库 ， 以 此 为 抽取 过 程 中 的 解析 操作 提供 支持 。 

® 数据 存储 部 分 ， 可 以 选择 NoOSQL、SQL'、 文 件 等 多 种 方式 存储 ， 以 应 变 不 同 的 分 析 环境 ， 
该 功能 模块 也 提供 了 相应 的 数据 库 管理 系统 的 接口 ， 以 简化 数据 库 的 接 入 。 

e 插件 管理 部 分 ， 可 以 监视 插件 运行 状态 ， 并 且 管 理 员 能 够 通过 发 送 指令 控制 插件 的 开启 和 
关闭 ， 并 能 添加 或 更 新 新 插件 。 


图 6.3 即 为 本 采集 平台 的 主要 功能 ， 其 中 数据 抽取 、 解 析 、 存 储 部 分 的 调度 功能 由 插件 管理 
功能 模块 来 处 理 。 


6.2.2” 非 功 能 需求 


为 了 应 对 大 数据 背景 下 的 异 构 数据 采集 需求 ， 和 与 情 监控 系统 的 数据 采集 平台 开发 普遍 存在 两 
方面 的 困难 。 

一 方面 ， 多 源 异 构 数据 ， 即 来 自 不 同 平台 的 非 统 一 化 结构 数据 ， 这 类 数据 在 网 络 发 达 的 今天 
普遍 存在 ， 例 如 HTML、XML、JSON、 数 据 库 接 入 服务 等 ， 它 们 不 管 是 获取 方式 还 是 存储 格式 、 
不 同 的 厂商 在 不 同 的 场合 、 选 取 的 数据 结构 , 都 大 相 径 庭 ， 因 此 带 来 了 数据 抽取 和 存储 上 的 难题 ， 
如 何 设计 抽取 存储 平台 ， 把 异 构 数据 整合 统一 格式 化 ， 以 供 后 续 的 分 析 处 理 ， 是 大 数据 技术 不 得 
不 考虑 的 问题 。 

另 一 方面 , 根据 一 定 的 先 验 知识 产生 包装 器 的 方法 造成 了 系统 的 适应 性 较 差 , 即 通 用 性 不 够 ， 
当 网 页 结构 发 生变 化 时 ， 需 要 重新 进行 人 工 干预 ， 对 抽取 工作 造成 了 一 定 的 困难 ， 不 断 关 闭 系统 
再 重新 上 线 部 署 新 的 算法 逻辑 的 同时 也 对 系统 的 可 用 性 造成 了 影响 。 

这 两 个 方面 的 问题 ， 都 把 矛头 指向 了 日 新 月 异 的 技术 和 需求 变化 带 来 的 数据 异 构 状况 ， 而 为 
了 适应 这 种 快速 变化 ， 我 们 需要 一 个 可 伸缩 、 扩 展 能 力 强 的 平台 来 解决 从 开发 、 更 新 到 部 署 、 使 
用 流程 中 遇 到 的 一 系列 困难 。 

因此 本 章 数 据 采 集 平 台 的 设计 与 实现 , 考虑 到 上 述 问题 , 主要 强调 对 多 种 异 构 数据 的 灵活 接 入 。 





6.2.3 总 体 设计 


异 构 数据 采集 平台 以 数据 为 核心 ， 因 此 在 设计 数据 流 时 需要 考虑 的 问题 比较 多 。 根 据 以 上 需 
求 分 析 获 得 的 用 例 规约 ， 把 整个 系统 分 作 三 个 核心 模块 和 一 个 管理 模块 ， 其 中 三 个 核心 模块 由 系 
统 定义 接口 ， 并 由 插件 开发 人 员 实 现 具 体 逻 辑 ， 管 理 模块 采用 RESTful 数据 获取 模式 ， 可 以 方便 
地 组 建 自 定义 的 管理 后 台 。 

如 图 6.4 所 示 是 系统 的 上 下 文 数据 流 图 。 
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XML、JSON、 

微 博 数 据 平台 传统 页 面 数据 RSS 等 

其 他 结构 数据 
原始 数据 

原 硝 数 忆 一 基 | 数据 抽取 模块 原 寻 数据 
布 式 数据库 
数据 解析 模块 解析 前 数据 MR 
ET Liisi 
统一 数据 结构 | 存储 操作 指令 区 | 数据 存储 模块 





图 6.4 系统 上 下 文 数据 流 图 


由 于 需要 抽取 蜡 构 数据 ， 因 而 各 功能 模块 间 数 据 流 采 用 管道 过 滤器 模式 。 
各 模块 生命 周期 如 图 6.5 所 示 。 


数据 解析 


数据 抽取 人 数据 存储 


图 6.5 插件 模块 生命 周期 图 


对 原始 数据 源 进 行 访问 获取 后 ， 以 当前 页 面 或 用 户 等 数据 键 为 节点 ， 通 过 解析 器 解析 其 中 的 
外 部 链接 ， 以 此 为 边 向 外 扑 取 新 数据 ， 在 每 个 节点 仆 取 过 程 中 ,将 采集 得 到 的 元 数据 解析 为 对 象 ， 
按 网 状 结构 存储 到 数据 库 。 这 一 系列 操作 的 枢纽 就 是 异 构 数据 到 同 构 数据 的 转化 。 

采集 平台 系统 总 架构 图 如 图 6.6 所 示 。 本 框架 采用 基于 OSGi 规范 的 插件 式 框架 ， 之 所 以 使 
用 OSGi 作为 数据 抽取 和 存储 的 插件 平台 ， 主 要 考虑 到 其 动态 绑 定 部 署 的 特性 ， 能 够 实现 可 伸缩 
的 插件 机 制 ， 以 此 同时 抓 取 更 多 平台 〔〈 新 浪 、 腾 讯 、Twitter……)， 可 以 纳入 更 多 的 异 构 数据 和 接 
入 支持 (HTML、XML、JSON、HTTP、HTTPS、SQL……)， 并 且 每 个 抽取 插件 相对 独立 ， 支 
持 分 布 式 和 动态 部 署 , 能 够 针对 不 同 地 区 的 网 络 环境 选择 不 同 服务 器 来 完成 信息 采集 , 利用 Redis 
等 内 存 数据 库 减 少 磁盘 IO 等 。 

本 平台 还 需要 实现 一 个 控制 台 工 具 ， 对 本 平台 的 各 插件 的 运行 情况 作 监 视 ， 同 时 使 用 该 工具 
可 以 实现 动态 部 署 增加 新 功能 开启 关闭 插件 等 操作 , 该 工具 采用 B/S 架构 , Nodejs 与 Felix(OSGi 
框架 的 一 个 流行 实现 ) 的 console 交互 ， 封 装 对 插件 管理 “增加 、 更 新 、 开 关 ” 的 功能 ， 并 可 供 
远程 访问 。 
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6.3.1 


的 标准 化 原 语 。 
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Redis 3 











图 6.6 采集 平台 系统 总 体 架构 图 


相关 技术 介绍 


OSGi 框架 介绍 
OSGi (Open Service Gateway Initiative) 开放 服务 平台 技术 是 面向 Java 的 动态 模型 系统 , OSGi 
服务 平台 向 Java 提供 服务 ， 这 些 服 务 使 Java 成 为 软件 集成 和 软件 开发 的 首选 环境 。Java 提供 在 


多 个 平台 支持 产品 的 可 移植 性 。OSGi 技术 允许 应 用 程序 使 用 精炼 、 可 重用 和 可 协作 的 组 件 构建 
这 些 组 件 能 够 组 装 进 一 个 应 用 和 部 署 中 。 
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1. OSGi 框 架 要 点 

OSGi 框架 形成 了 OSGi 规范 的 核心 。 它 提供 了 一 个 通用 、 安 全 、 受 管理 的 Java 框架 ， 为 可 
扩展 和 可 下 载 的 应 用 或 服务 集合 (以 下 被 称 作 Bundle) 的 部 署 提供 支持 。 

OSGi 兼容 的 设备 ， 可 以 下 载 并 安装 OSGi Bundle 包 ， 并 当 不 再 需要 时 ,删除 它们 。 该 框架 在 
OSGi 的 环境 中 ， 以 动态 、 可 伸缩 的 方式 安装 和 更 新 管理 Bundle。 为 了 实现 这 一 目标 ， 它 需要 管 
理 详细 的 Bundle 和 服务 之 间 的 依赖 关系 。 

它 提供 给 Bundle 开发 者 必要 的 资源 ， 以 充分 利用 Java 的 平台 独立 性 和 动态 代码 装载 能 力 ， 
来 轻松 地 开发 为 小 内 存 设备 大 规模 部 署 的 服务 。 

如 图 6.7 所 示 为 OSGi 框架 的 功能 被 划分 的 层 。 


执行 环境 (Execution Environment ) 
安全 层 (Security ) 

模块 层 (Module ) 

生命 周期 层 (Life cycle ) 

实际 服务 层 ( Service ) 








三 件 / 操 作 系统 


6.7 OSGi 主要 架构 图 
通过 以 上 的 功能 分 层 ， 在 Java 的 Runtime 运行 时 环境 中 ， 满 足 OSGi 规范 约定 的 Bundles 可 
以 在 框架 的 管理 下 ， 动 态 地 增加 、 更 新 和 移 除 服务 提供 类 ， 这 一 点 正 是 构建 可 伸缩 插件 平台 的 特 
性 。 
2. 0SGi 技 术 细节 


(1) OSGi Headers 
OSGi Headers 是 存放 在 jar 包 中 的 Manifest 头 文件 ， 是 OSGi 框架 对 Bundle 的 信息 入 口 。 不 
同 的 组 织 为 OSGi Bundles 提供 了 许多 Header 元 信息 。 
主要 包括 : 


e Bundle-SymbolicName : Bundle 包 名 。 
@ Bundle-Version : Bundle 的 版 本 号 。 
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® Export-package : 导出 包 ， 指 明 对 外 可 用 的 包 。 
e Import-package : 引入 包 ， 指 明 绑 定 依赖 的 包 。 


(2) OSGi 生命 周期 
OSGi 生命 周期 包括 三 个 状态 ， 即 Installed〈 已 安装 )、Resolved〈 待 机) 和 Uninstalled (已 邱 
载 )。 
其 中 Resolved 包含 Starting、Active 和 Stoping 三 个 受 事 件 驱动 的 执行 状态 。 
OSGi 框架 在 成 功 加 载 Bundles 后 ， 如 果 Bundle 内 包含 Activator 类 型 ， 则 可 以 通过 外 部 命令 
调用 该 类 中 声明 的 start 和 stop 函数 ， 来 实现 服务 的 开启 和 关闭 。 
而 当 需 要 安装 或 者 移 除 Bundle 时 ， 也 提供 了 instalyupdate、uninstall 选项 。 


(3) Bundle Activator 
每 个 Bundle 能 够 可 选 地 声明 一 个 实现 了 org.osgi.framework.BundleActivator 的 Activator〔 众 
化 剂 ) 类 ， 这 个 类 必须 在 Manifest 文件 中 被 BundleActivator 引用 ， 通 过 实现 这 个 类 ， 人 允许 Bundle 
开发 者 在 生命 周期 中 实现 具体 的 start 和 stop 动作 ， 一 般 来 说 ， 该 类 操作 包括 获取 和 释放 资源 、 注 
册 和 注销 服务 等 。 


3. OSGi 的 动态 绑 定 特性 


(1) 特性 介绍 
OSGi 框架 提供 了 一 个 非常 强大 和 动态 的 程序 环境 ，Bundles 的 安装 、 启 动 、 停 止 、 更 新 、 钾 
载 都 不 需 关 停 框架 。Bundles 的 依赖 由 框架 监控 ,但 Bundles 必须 保证 这 些 依赖 关系 正确 。 框 架 的 
动态 特性 关乎 两 个 重要 方面 ， 那 就 是 “服务 注册 ”和 “已 安装 的 Bundles 集合 ”。 
Bundles 开发 人 员 必须 注意 ， 避 免 使 用 已 注销 的 陈旧 的 服务 对 象 。 框 架 服务 注册 的 动态 性 质 ， 
使 我 们 有 必要 跟踪 服务 对 象 ， 判 断 它们 是 注册 还 是 未 注册 的 ， 以 此 防止 依赖 问题 。 我 们 很 容易 忽 
视 其 中 的 竞争 或 边界 情况 , 这 将 导致 某 些 不 确定 的 错误 。 跟踪 已 安装 的 Bundle 集合 和 它们 的 状态 
时 也 存在 类 似 的 问题 。 
为 此 ，OSGi 规范 定义 了 两 个 工具 类 ，ServiceTracker 和 BundleTracker， 这 使 得 跟踪 服务 和 搁 
绑 更 加 容易 。 
-个 ServiceTracker 的 类 可 以 通过 实现 ServiceTrackerCustomizer 接口 或 继承 ServiceTracker 类 
的 子 类 来 定制 功能 。 同样 的 , 一 个 BundleTracker 类 也 可 以 通过 实现 BundleTrackerCustomizer 接口 
或 子 类 来 定制 。 这 些 实用 工具 类 ， 显 著 地 降低 了 跟踪 “服务 注册 ”和 “已 安装 的 Bundle 集合 ”的 
复杂 度 。 
(2) 跟踪 服务 和 Bundles 
OSGi 框架 是 一 个 动态 的 多 线程 环境 。 在 这 样 的 环境 中 ， 回 调 可 以 同时 发 生 在 不 同 的 线程 中 。 
这 种 动态 性 导致 了 更 多 的 复杂 性 。 实 现 这 种 环境 出 奇 困难 的 方面 之 一 就 是 如 何 加 强 “ 跟 踪 服 务 和 
Bundles” 的 可 靠 性 。 这 些 复杂 问题 引发 自 BundleListener 和 ServiceListener 接口 在 Listener 监听 器 
注册 时 只 提供 状态 变更 的 访问 权 ， 而 不 是 提供 完整 的 现 有 服务 状态 。 这 给 程序 员 留 下 了 一 系列 问 
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题 一 一 如 何 将 以 事件 为 标志 的 状态 变更 ， 与 现 有 服务 状态 合并 起 来 ， 并 且 规 避 那 些 “ 服 务 匈 余 ” 
或 者 “ 因 缺 失 了 某 个 remove 事件 ， 导 致 实际 不 存在 的 服务 仍 在 被 框架 跟踪 ”之 类 的 问题 。 

通过 合适 的 锁 结 构 ， 可 以 缓解 这 些 易 发 生 的 竞争 和 边界 问题 ， 但 是 也 容易 引发 死 锁 ， 因 此 ， 
OSGi 框架 提供 了 Service Tracker 和 Bundle Tracker， 显 著 减 少 了 解决 这 一 系列 问题 的 难度 。 

Bundle 其 实 就 是 一 个 jar 文件 ,这 个 jar 文件 和 普通 的 jar 文件 唯一 不 同 的 地 方 就 是 META-INF 
目录 下 的 MANIFEST.MEF 文件 的 内 容 , 关于 Bundle 的 所 有 信息 都 在 MANIFEST.MF 中 进行 描述 ， 
说 得 时 墅 点， 可 以 称 它 为 Bundle 的 元 数据 ， 这 些 信息 中 包含 有 类 似 Bundle 的 名 称 、 描 述 、 开 发 
商 、classpath 、 需 要 导入 的 包 以 及 输出 的 包 等 ， 在 后 续 的 开发 Bundle 中 将 会 详细 介绍 Bundle 的 
元 数据 以 及 如 何 去 开 发 Bundle。 

Bundle 通过 实现 BundleActivator 接口 来 控制 其 生命 周期 。Bundle 启动 、 停 止 时 所 需要 进行 
的 工作 可 以 在 Activator 中 编写 , 也 可 在 Activator 中 发 布 或 者 监听 框架 的 事件 状态 信息 ,根据 框 
架 的 运行 状态 做 出 相应 的 调整 。 但 同时 要 注意 ， 如 果 应 用 是 被 类 似 于 Ctrl+C 等 方式 强行 终止 的 
话 ， 那 么 Activator 中 的 stop 方法 是 不 会 被 调用 的 。 

Bundle 是 一 个 独立 的 概念 ， 在 OSGi 框架 中 对 于 每 个 Bundle 采用 的 是 独立 的 classloader 机 
制 ， 这 也 就 意味 着 不 能 采用 传统 的 如 引用 其 他 Bundle 的 工程 来 实现 Bundle 间 的 协作 。 那 么 在 
OSGi 框架 中 Bundle 之 间 是 怎么 协作 的 呢 ? 在 OSGi 框架 中 对 于 每 个 Bundle 可 以 定义 输出 的 包 
以 及 引用 的 包 , 这 样 在 Bundle 间 就 可 以 共享 包 中 的 类 了 , 尽管 这 样 也 可 以 直接 实现 简单 的 Bundle 
的 协作 ,但 在 O0SGi 框架 中 更 加 推荐 的 是 采用 Service 的 方式 , Service-Oriented 的 概念 (例如 SOA) 
大 家 都 接触 多 了 ，OSGi 框架 也 同样 如 此 ， 每 个 Bundle 可 以 通过 BundleContext 注册 对 外 提供 的 
服务 ， 同 时 也 可 以 通过 BundleContext 来 获得 需要 引用 的 服务 ， 采 用 Service-Oriented 的 方式 可 以 
使 得 对 外 提供 的 服务 更 加 封闭 , 不 需要 为 了 使 用 别 的 Bundle 提供 的 Service 而 做 环境 依赖 等 的 设 
置 ， 同 时 ，Bundle 还 可 以 采用 Require-Bundle 的 方式 来 直接 引用 其 他 的 Bundle (相当 于 引用 其 他 
Bundle 的 工程 或 jar)， 在 后 续 的 开发 、 发 布 和 使 用 Service 中 将 会 详细 介绍 如 何 去 开 发 、 部 署 和 使 


用 Service。 








(3) Bundle 上 下 文 

当 Bundle 被 启动 时 ， 框 架 调用 其 激活 器 的 start( 方 法 ， 当 它 被 停止 时 ， 则 调用 stop() 方 法 。 
这 两 个 方法 都 会 接收 BundleContext 接口 的 一 个 实例 。BundleContext 接口 的 方法 可 以 大 致 分 为 两 
类 。 

第 一 类 与 部 署 和 生命 周期 管理 相关 。 第 二 类 与 Bundle 间 服 务 式 的 交互 相关 。 我 们 对 第 一 类 提 
供 了 许多 额外 的 能 力 , 包括 安装 和 管理 其 他 Bundle 的 生命 周期 、 获 取 框 架 的 有 关 信息 、 查 找 基 本 
配置 属性 。 

Bundle 上 下 文 对 象 是 与 之 关联 的 Bundle 唯一 执行 时 的 上 下 文 环境 ， 它 的 这 种 角色 是 它 的 一 
个 重要 方面 。 因 为 它 代表 了 执行 上 下 文 ， 所 以 只 有 当 关 联 的 Bundle 处 于 激活 状态 时 ， 它 才 是 有 效 
的 。 更 明确 地 说 ， 它 是 指 ， 从 激活 器 的 start() 方 法 被 调用 ， 到 stop0 方 法 结束 的 这 一 整 段 时 间 内 。 
当 关 联 的 Bundle 没有 处 于 激活 状态 时 ， 试 图 使 用 它 ， 大 多 数 Bundle 上 下 文 的 方法 都 会 抛 出 异常 。 
它 是 唯一 的 执行 时 上 下 文 环境 ， 这 是 由 于 每 个 已 激活 的 Bundle 都 会 接收 到 属于 自己 的 上 下 文 对 
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象 。 框 架 之 所 以 使 用 该 上 下 文 是 出 于 安全 性 ， 以 及 为 每 个 独立 的 Bundle 分 配 资源 的 考虑 。 基 于 
BundleContext 对 象 的 这 一 特性 ， 它 们 应 被 视 为 敏感 的 或 私有 的 对 象 ， 并 且 不 能 在 Bundle 之 间 自 
由 传递 。 
(4) Service 依赖 管理 系统 

OSGi 服务 的 松散 结构 , 使 得 开发 中 对 Service 的 依赖 变 得 复杂 。 这 也 使 得 Service 的 关系 管理 
成 为 OSGi 中 一 个 非常 重要 的 部 分 ， 本 章 中 使 用 了 OSGi Service 依赖 关系 管理 的 一 种 方式 一 一 
Service Listener。 

这 是 OSGi 中 原生 的 Service 依赖 管理 机 制 ， 也 是 最 简单 直接 的 方式 。 

标准 的 注册 /查找 步骤 如 下 : 


人 D01 被 依赖 的 Bundle 通过 BundleContextregisterService() 方 法 注册 服务 到 系统 中 。 

人 02 使 用 依赖 的 Bundle 在 start 时 通过 BundleContext 的 getServiceReferences()/getService() 
来 查找 依赖 的 service。 

人 03 使 用 依赖 的 Bundle 通过 BundleContext.addServiceListener() 来 一 一 注册 ServiceListener。 

人 04 在 被 依赖 的 Bundle/service 状态 发 生变 化 时 ， 使 用 依赖 的 Bundle 通过 ServiceListener 调 
用 serviceChanged() 得 到 通知 并 作出 调整 。 


在 这 种 方法 中 ， 使 用 依赖 的 Service 必须 进行 大 量 的 编码 工作 来 完成 对 依赖 的 Service 进行 关 
系 管理 ， 需 要 处 理 琐碎 细节 (如 各 个 Service 运行 时 的 状态 变化 )。 为 了 减少 工作 量 ，OSGi 设计 
了 ServiceTracker 来 简化 对 依赖 Service 的 编码 工作 ， 即 ServiceTracker 将 负责 处 理 上 述 步 骤 中 的 
EE Em. ET. 

经 过 ServiceTracker 优化 后 的 Service Listener 机 制 ， 还 是 存在 一 些 缺点 : 


e@ 编码 量 还 是 不 小 ， 尤 其 对 于 依赖 较 多 的 场景 。 

@ Activator 还 是 太 复杂 了 , 尽管 已 经 努力 地 试图 简化 . 但 对 于 一 些 业 务 逻 辑 简单 的 Service， 
如 果 依 赖 的 Service 比较 多 ， 那 么 Activator 的 逻辑 和 代码 实现 远 比 Service 本 身 的 逻辑 和 
实现 要 复杂 ， 这 违背 了 我 们 使 用 框架 简化 开发 的 初衷。 

@ Activator 对 测试 不 利 ， 这 是 Activator 的 复杂 性 造成 的 。 由 于 Activator 中 存在 大 量 的 依赖 
处 理 逻 辑 ， 理 所 当然 地 会 增加 测试 的 复杂 性 。 


总 的 来 说 ，Service Listener 机 制 下， 管理 Service 依赖 对 于 开发 者 来 说 难度 较 大 : 管理 必 不 可 
少 ， 但 又 容易 出 现 错误 ， 出 错时 不 容易 测试 。 而 且 ， 这 些 工 作 都 不 是 Service 业务 逻辑 的 组 成 部 
分 ， 不 能 带 来 直接 收益 。 更 重要 的 是 ， 从 分 工 的 角度 上 讲 ， 开 发 人 员 应 该 将 更 多 的 精力 投入 到 应 
用 层 与 逻辑 层 ， 而 不 是 OSGi 的 底层 实现 机 制 。 


6.3.2 多 源 异 构 数 据 的 获取 
本 章 限于 篇 幅 , 将 介绍 互联 网 领域 的 SNS、 微 博 、HTML 等 异 构 数据 的 抽取 存储 设计 与 实现 。 
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1. 常见 异 构 数据 抽取 方式 


(1) RESTfulAPI 与 OAuth 2.0 授权 机 制 

REST (REpresentational State Transfer) 是 一 组 架构 约束 条 件 和 设计 原则 ，REST 描述 了 一 个 
架构 样式 的 网 络 系统 , 比如 Web 应 用 程序 。 在 服务 器 端 , 应 用 程序 状态 和 功能 可 以 分 为 各 种 资源 。 
资源 是 一 个 有 趣 的 概念 实体 ， 它 向 客户 端 公开 。 资 源 的 例子 有 : 应 用 程序 对 象 、 数 据 库 记录 、 算 
法 等 。 每 个 资源 都 使 用 URI (Universal Resource Identifier) 得 到 一 个 唯一 的 地 址 。 所 有 资源 都 共 
享 统一 的 界面 , 以便 在 客户 端 和 服务 器 之 间 传 输 状 态 。 它 使 用 的 是 标准 的 HTTP 方法 , 比如 GET、 
PUT、POST 和 DELETE。Hypermedia 是 应 用 程序 状态 的 引擎 ， 资 源 表 示 通 过 超 链接 互联 。 

许多 SNS 与 微 博 ,都 提供 了 一 套 完善 的 满足 REST 约束 的 开放 数据 平台 ， 这 类 平台 通常 会 提 
供 结构 化 的 纯净 数据 ， 凡 是 满足 OAuth 用 户 授权 的 应 用 ， 都 可 以 通过 HTTP 来 获取 相关 数据 。 我 
们 可 以 通过 该 类 平台 ， 来 实现 微 博 的 数据 抽取 。 

OAuth 允许 用 户 提供 一 个 令 牌 ， 而 不 是 用 户 名 和 密码 来 访问 受 保护 的 数据 。 每 一 个 令 牌 授权 
一 个 特定 的 网 站 〈 例 如 ， 视 频 编辑 网 站 ) 在 特定 的 时 段 〈 例 如 ， 接 下 来 的 2 小 时 内 ) 内 访问 特定 
的 资源 (例如 仅仅 是 某 一 相册 中 的 视频 )。 这 样 ,， OAuth 允许 用 户 授权 第 三 方 网 站 来 访问 他 们 受 保 
护 的 信息 ， 而 非 共享 他 们 的 访问 许可 或 数据 的 所 有 内 容 。 

在 认证 和 授权 的 过 程 中 涉及 的 三 方 包括 : 

@ 服务 提供 方 ， 用 户 使 用 服务 提供 方 来 存储 受 保护 的 资源 ， 如 照片 、 视 频 、 联 系 人 列表 。 

@ 用 户 ， 存 放 在 服务 提供 方 的 受 保护 的 资源 的 拥有 者 。 

@ 客户 端 要 访问 服务 提供 方 资源 的 第 三 方 应 用 , 通常 是 网 站 如 提供 照片 打印 服务 的 网 站 . 

在 认证 过 程 之 前 ， 客 户 端 要 向 服务 提供 者 申请 客户 端 标识 。 

使 用 OAuth 进行 认证 和 授权 的 过 程 如 下 所 示 : 
人 ODN 用 户 访问 客户 端的 网 站 ， 请 求 用 户 存放 在 服务 提供 方 的 资源 。 
人 2 客户 端 向 服务 提供 方 请 求 一 个 临时 令 牌 。 
人 3 服务 提供 方 验证 客户 端的 身份 后 ， 授 予 一 个 临时 令 牌 。 
人 4 客户 端 获得 临时 令 牌 后 ,将 用 户 引导 至 服务 提供 方 的 授权 页 面 请 求 用 户 授权 。 在 这 个 过 

程 中 将 临时 令 牌 和 客户 端的 回调 链接 网 址 发 送 给 服务 提供 方 。 

人 05 用 户 在 服务 提供 方 的 网 页 上 输入 用 户 名 和 密码 然后 授权 该 客户 端 访问 所 请 求 的 资源 
GJ06 ， 授权 成 功 后 ， 服 务 提 供 方 引导 用 户 返 回 客 户 端的 网 页 。 
人 07 客户 端 根据 临时 令 牌 从 服务 提供 方 那 里 获取 访问 令 牌 。 
人 8 服务 提供 方 根据 临时 令 牌 和 用 户 的 授权 情况 授予 客户 端 访问 令 牌 。 
人 09 客户 端 使 用 获取 的 访问 令 牌 访问 存放 在 服务 提供 方 上 的 受 保护 的 资源 。 


(2) 静态 页 面 数据 
RESTful 设计 原则 的 Web 应 用 ， 提 供 了 方便 快捷 的 数据 抽取 方法 。 但 是 实际 情况 下 ， 更 多 的 
数据 源 ， 并 没有 满足 REST 约束 ， 也 没有 提供 方便 的 获取 结构 化 数据 的 途径 。 在 这 种 情况 下 就 需 
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要 对 原始 数据 页 面 进 行 解析 ， 并 通过 内 部 锚 链 接 的 跳 转 来 实现 仆 虫 ， 从 而 更 高 效 地 抽取 这 些 原始 
页 面 中 的 关键 数据 内 容 。 这 类 数据 中 最 常见 的 就 是 HTML 与 RSS, 该 类 页 面 可 以 很 容易 地 从 互联 
网 中 获取 。 但 是 为 了 将 其 关键 数据 抽取 出 来 ， 需 要 做 一 系列 的 解析 操作 ， 并 且 需 要 自行 设计 数据 
的 组 织 结构 ， 来 满足 日 后 的 分 析 需 求 。 
DOM 是 Document Object Model (文档 对 象 模型 ) 的 缩写 。 根 据 W3C DOM 规范 ，DOM 是 
-种 与 浏览 器 、 平 台 、 语 言 无 关 的 接口 ， 借 此 可 以 访问 页 面 其 他 的 标准 组 件 。 简 单 理解 ，DOM 
解决 了 Netscape 的 JavaScript 和 Microsoft 的 JScript 之 间 的 冲突 ， 给 予 Web 设计 师 和 开发 者 一 个 
标准 的 方法 ， 让 他 们 来 访问 他 们 站 点 中 的 数据 、 脚 本 和 表现 层 对 象 。 

DOM 是 以 层次 结构 组 织 的 节点 或 信息 片断 的 集合 。 这 个 层次 结构 允许 开发 人 员 在 树 中 导航 
寻找 特定 信息 。 分 析 该 结构 通常 需要 加 载 整个 文档 和 构造 层次 结构 ， 然 后 才能 做 任何 工作 。 由 于 
它 是 基于 信息 层次 的 ， 因 而 DOM 被 认为 是 基于 树 或 基于 对 象 的 。 DOM 定义 了 访问 和 操作 文档 
的 标准 方法 ， 把 HTML 文档 呈现 为 带 有 元 素 、 属 性 和 文本 的 树 结构 节点 树 )。 

DOM 分 为 HTML DOM 和 XML DOM 两 种 。 它 们 分 别 定义 了 访问 和 操作 HTML/XML 文档 
的 标准 方法 ， 并 将 对 应 的 文档 呈现 为 带 有 元 素 、 属 性 和 文本 的 树 结构 (节点 树 ): 


e DOM 树 定义 了 HTML/XML 文档 的 逻辑 结构 ， 给 出 了 一 种 应 用 程序 访问 和 处 理 XML 文 
档 的 方法 。 

e 在 DOM 树 中 ， 有 一 个 根 节 点 ， 所 有 其 他 的 节点 都 是 根 节点 的 后 代 。 

e@ 在 应 用 过 程 中 ， 基 于 DOM 的 HTML/XML 分 析 器 将 一 个 HTML/XML 文档 转换 成 一 棵 
DOM 树 ， 应 用 程序 通过 对 DOM 树 的 操作 ， 来 实现 对 HTML/XML 文档 数据 的 操作 。 


(3) 数据 库 接 入 

对 于 私有 数据 ， 尤 其 是 企业 内 部 数据 ， 也 会 提供 相关 的 数据 库 接 入 服务 ， 有 可 能 是 满足 SQL 
的 ODBC、JDBC 等 通用 接口 或 者 MySQL、Oracle 等 数据 库 ， 也 有 可 能 是 实现 某 些 特定 需求 的 
NoSQL 数据 库 。 这 类 数据 通常 有 良好 的 组 织 结构 ， 也 有 便捷 的 接 入 和 检索 方式 ， 因 而 是 最 便于 后 
续 处 理 的 数据 接 入 方式 。 

实体 关系 模型 (Entity-Relationship Model)， 简 称 E-R Model 是 陈 品 山 〈Peter PS Chen) 博士 
于 1976 年 提出 的 一 套数 据 库 的 设计 工具 , 他 运用 真实 世界 中 事物 与 关系 的 观念 , 来 解释 数据 库 中 
抽象 的 数据 架构 。 实 体 关 系 模型 利用 图 形 的 方式 ， 即 实体 -关系 图 (Entity-Relationship Diagram 
来 表示 数据 库 的 概念 设计 ， 有 助 于 设计 过 程 中 的 构思 及 沟通 讨论 。 

关系 模型 就 是 指 二 维 表格 模型 ， 因 而 一 个 关系 型 数据 库 就 是 由 二 维 表 及 其 之 间 的 联系 组 成 的 
一 个 数据 组 织 。 当 前 主流 的 关系 型 数据 库 有 Oracle、DB2、Microsoft SQL Server、 Microsoft Access、 
MySQL 等 。 

关系 数据 库 是 建立 在 关系 模型 基础 上 的 数据 库 ， 借 助 于 集合 代数 等 数学 概念 和 方法 来 处 理 数 
据 库 中 的 数据 。 现 实 世 界 中 的 各 种 实体 以 及 实体 之 间 的 各 种 联系 均 用 关系 模型 来 表示 。 关 系 模型 
是 由 埃 德 加 。 科 德 于 1970 年 首先 提出 的 ， 并 配合 “ 科 德 十 二 定律 ”。 如 今 虽然 对 此 模型 上 有 一 些 批 
评 意见 , 但 它 还 是 数据 存储 的 传统 标准 。 标 准 数 据 查询 语言 SQL 就 是 一 种 基于 关系 数据 库 的 语言 ， 
这 种 语言 执行 对 关系 数据 库 中 数据 的 检索 和 操作 。 关 系 模型 由 关系 数据 结构 、 关 系 操作 集合 、 关 
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系 完整 性 约束 三 部 分 组 成 。 

关系 型 数据 库 中 的 表 都 是 存储 一 些 格式 化 的 数据 结构 ， 每 个 元 组 字段 的 组 成 都 一 样 ， 即 使 不 
是 每 个 元 组 都 需要 所 有 的 字段 ， 但 数据 库 会 为 每 个 元 组 分 配 所 有 的 字段 。 这 样 的 结构 可 以 便于 表 
与 表 之 间 的 连接 等 操作 ， 但 从 另 一 个 角度 来 说 它 也 是 关系 型 数据 库 性 能 瓶颈 的 一 个 因素 。 而 非 关 
系 型 数据 库 以 键 值 对 存储 ， 它 的 结构 不 固定 ， 每 一 个 元 组 可 以 有 不 一 样 的 字段 ， 每 个 元 组 可 以 根 
据 需 要 增加 一 些 自己 的 键 值 对 , 这 样 就 不 会 局 限于 固定 的 结构 , 可 以 减少 一 些 时 间 和 空间 的 开销 。 


2. 常见 异 构 数据 解析 


(1) JSON 
JSON (JavaScript Object Notation ) 是 一 种 轻 量 级 的 数据 交换 格式 。 它 基于 JavaScript 的 一 个 
子 集 。JSON 采用 完全 独立 于 语言 的 文本 格式 ， 但 是 也 使 用 了 类 似 于 C 语言 家 族 的 习惯 。 这 些 特 
性 使 JSON 成 为 理想 的 数据 交换 语言 ， 易 于 人 阅读 和 编写 ， 同 时 也 易于 机 器 解析 和 生成 。 
JSON 简单 地 说 就 是 JavaScript 中 的 对 象 和 数组 ， 通 过 这 两 种 结构 可 以 表示 各 种 复杂 的 结构 。 


@ 对 象 : 对 象 在 js 中 表示 为 “{}" 扩 起 来 的 内 容 ， 数 据 结构 为 {key: value,key: value…} 的 键 
值 对 结构 。 在 面向 对 象 的 语言 中 ，key 为 对 象 的 属性 ，value 为 对 应 的 属性 值 ， 所 以 很 容 
易 理解 。 取 值 方法 为 : 对 象 .key ， 这 个 属性 值 的 类 型 可 以 是 数字 、 字 符 串 、 数 组 、 对 象 
几 种 。 

@ 数组 : 数组 在 js 中 是 中 括号 “中 " 扩 起 来 的 内 容 ， 数 据 结构 为 "java","javascript","vb"….]， 
取 值 方式 和 所 有 语言 中 一 样 ， 使 用 索引 获取 。 字 段 值 的 类 型 可 以 是 数字 、 字 符 事 、 数 组 、 
对 象 几 种 。 


对 比如 下 新 浪 微 博 与 腾讯 微 博 开 放 平台 的 JSON 数据 ， 可 以 看 出 两 者 的 数据 封装 形式 有 所 不 
同 ， 因 此 需要 对 JSON 数据 对 象 化 后 ， 按 照 具 体 数据 结构 情况 处 理 。 
新 浪 微 博 数据 结构 : 
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腾讯 微 博 数据 结构 : 
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] 
seqid : 5776011266805341272 


现 有 的 JSON 解析 工具 有 很 多 ， 几 乎 在 所 有 常见 的 语言 里 都 有 相应 的 实现 ， 在 Java 中 有 
JSON-Lib、orgjson、Flexjson 等 。 


(2) XML 与 HTML 

可 扩展 标记 语言 XML, 是 用 于 标记 电子 文件 使 其 具有 结构 性 的 标记 语言 , 可 以 用 来 标记 数据 、 
定义 数据 类 型 ， 是 一 种 允许 用 户 对 自己 的 标记 语言 进行 定义 的 源 语言 。 

超级 文本 标记 语言 HTML 是 标准 通用 标记 语言 下 的 一 个 应 用 ,也 是 一 种 规范 ,一 种 标准 ， 它 
通过 标记 符号 来 标记 要 显示 的 网 页 中 的 各 个 部 分 。 网 页 文件 本 身 是 一 种 文本 文件 ， 通 过 在 文本 文 
件 中 添加 标记 符 ， 可 以 告诉 浏览 器 如 何 显示 其 中 的 内 容 〈 如 文字 如 何 处 理 、 画 面 如 何 安排 、 图 片 
如 何 显示 等 )。 

XML 与 HTML 的 设计 区 别 是 : XML 被 设计 为 传输 和 存储 数据 ， 其 焦点 是 数据 的 内 容 。 而 
HTML 被 设计 用 来 显示 数据 ， 其 焦点 是 数据 的 外 观 。HTML 虽 在 显示 信息 ， 而 XML 虽 在 传输 

XML 和 HTML 的 语法 区 别 是 : HTML 的 标记 不 是 所 有 的 都 需要 成 对 出 现 , XML 则 要 求 所 有 
的 标记 必须 成 对 出 现 ; HTML 标记 不 区 分 大 小 写 ，XML 则 大 小 敏感 ， 即 区 分 大 小 写 。 

对 于 该 类 标记 语言 数据 , 通常 采用 DOM 解析 器 来 抽取 数据 。 DOM 可 以 以 一 种 独立 于 平台 和 
语言 的 方式 访问 和 修改 一 个 文档 的 内 容 和 结构 。 换 名 话说， 这 是 表示 和 处 理 一 个 HTML 或 XML 
文档 的 常用 方法 。 

本 章 针对 该 类 静态 数据 ， 为 实现 关键 数据 的 抽取 ,使 用 HTML 解析 工具 库 jsoup。jsoup 是 一 
款 Java 的 HTML 解析 器 ， 可 直接 解析 某 个 URL 地 址 、HTML 文本 内 容 。 它 提供 了 一 套 非 常 省 
力 的 API， 可 通过 DOM、CSS 以 及 类 似 于 jQuery 的 操作 方法 来 取出 和 操作 数据 。 

jsoup 的 主要 功能 如 下 : 


e 从 一 个 URL， 文 件 或 字符 串 中 解析 HTML。 
e 使 用 DOM 或 CSS 选择 器 来 查找 、 取 出 数据 。 
@ 可 操作 HTML 元 素 、 必 性、 文本。 


jsoup 是 基于 MIT 协议 发 布 的 ， 可 放心 使 用 于 商业 项 目 。 
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6.4.1 异 构 数据 采集 平台 的 设计 


本 章 所 述 的 异 构 数据 采集 平台 ， 优 先 针对 数据 结构 做 了 优化 ， 采 用 类 似 中 间 件 的 技术 ， 在 各 
个 抽取 、 存 储 模块 间 传 递 信息 ， 能 够 适应 不 同 的 数据 接口 ， 灵 活 应 变 信息 结构 变化 的 需求 ， 由 此 
可 以 获得 一 个 可 伸缩 的 数据 采集 平台 。 

1. 数据 模型 设计 

异 构 数 据 的 采集 工作 需要 面 对 不 同 种 类 的 数据 源 结构 。 设 计 统 一 的 数据 模型 是 建立 可 伸缩 数 
据 采集 平台 中 间 层 所 需要 考虑 的 首要 问题 。 针对 现代 微 博 的 数据 特性 , 可 将 其 抽象 为 “用 户 、feed、 
关系 ”三 个 核心 内 容 : 用户 信息 包含 了 用 户 的 个 人 信息 、 用 户 的 订阅 列表 、 用 户 之 间 的 关系 信息 
等 ，feed 包含 了 具体 微 博 的 内 容 与 增 量 数据 、 该 微 博 参与 用 户 列表 、 转 发 者 的 信息 等 ， 而 关系 即 
为 用 户 与 用 户 、 用 户 与 feed、feed 与 feed 之 间 的 联系 信息 。 

在 抓 取 过 程 中 ， 我 们 可 以 把 这 些 数据 信息 分 类 为 静态 和 动态 的 两 种 。 其 中 用 户 的 关系 、 订 阅 
列表 等 为 静态 信息 ， 而 用 户 订 阅 的 时 间 线 等 不 断 随时 间 变化 的 数据 则 为 动态 信息 。 我 们 把 用 户 与 
feed 的 关系 数据 视 作 静 态 ， 保 存 于 数据 库 中 ， 提 供 定期 更 新 。 而 时 间 线 等 动态 数据 则 在 每 一 次 抓 
取 时 都 获得 更 新 ， 按 照 时 间 戳 比 对 ， 由 此 可 以 获取 新 的 与 情 数据 ， 保 证 数据 的 时 效 性 。 














public class Weibo{ 
Public String id; 
Public Content content; 
public String timestamp; 
public Weibo(String id, Content content) { 
this.id = id; 
this.content = content; 
this.timestamp = System.currentTimeMillis() .tostring; 


0 


如 以 上 代码 清单 所 示 ， 微 博 的 元 数据 被 抽象 为 包含 id、 发 布 内 容 、 抓 取 时 间 惟 等 内 容 的 类 ， 
其 中 id 对 应 具体 的 数据 源 ， 用 于 防止 抽取 重复 数据 造成 兄 余 。 发 布 内 容 包括 发 布 用 户 uid、 文 本 
内 容 、 转 发 信息 等 ， 时 间 戳 记录 当前 抓 取 时 间 便于 日 后 检索 排序 使 用 。 

如 图 6.8 所 示 为 数据 解析 器 与 微 博 元 数据 的 关系 图 。 元 数据 类 型 中 定义 了 数据 的 目标 结构 ， 
通过 不 同 的 解析 器 来 对 源 数据 解析 并 重新 组 织 。 最 后 获得 的 满足 元 数据 定义 的 数据 类 型 。 
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2. 抽取 架构 设计 
如 图 6.9 所 示 为 数据 抽取 模块 架构 图 。 


JSON 解析 器 
统一 元 数据 定义 数据 接 入 数据 接 入 接口 
支持 包 
数据 抽取 模块 


图 6.8 数据 解析 器 与 微 博 元 数据 的 关系 图 图 69 数据 抽取 模块 架构 图 

系统 的 抽取 架构 在 设计 时 ， 为 了 便于 多 平台 接 入 ， 以 及 后 续 的 存储 处 理 ， 首 先 应 当 把 规范 和 
实现 分 离 。 为 了 抽象 数据 抽取 的 模块 接口 ， 把 抽取 架构 分 为 两 个 部 分 ， 其 一 为 数据 接 入 接口 ， 其 
二 为 数据 抓 取 逻 辑 。 

(1) 数据 接 入 接口 

数据 接 入 服务 负责 对 数据 源 平台 的 接 入 ， 可 以 提供 满足 对 应 平台 安全 机 制 的 接 入 方式 ， 并且 
支持 扩充 。 


Package crawler.api.service.oauthAccess; 














解析 器 


一 -二 一 
























































HTML DOM 解析 器 
































数据 抓 取 接 口 

















import org.scribe.model .*; 

Public interface OAuthAccessService extend AccessService{ 
void fetchToken () ; 

Token getToken() 

} 


如 以 上 代码 所 示 , 其 中 AccessService 是 底层 的 数据 接 入 服务 接口 , 该 服务 是 使 用 了 OAuth 2.0 
的 授权 机 制 ， 即 获取 令 牌 Token， 因 此 需要 实现 fetchToken 方法 来 向 数据 源 平台 请 求 接 入 的 权限 ， 
将 获取 后 的 令 牌 封装 在 该 类 内 部 ， 需 要 使 用 授权 时 ， 可 以 通过 getToken 来 重新 获得 令 牌 。 通 过 这 
种 方式 ， 就 可 以 把 数据 接 入 抽象 为 简单 的 服务 接口 ， 以 适应 更 多 其 他 的 数据 源 接 入 方式 。 


(2) 数据 抓 取 逻 辑 

数据 抓 取 服 务 负责 对 异 构 数据 的 抓 取 ， 其 组 织 关系 可 以 视 具体 的 数据 源 平台 中 的 信息 组 织 方 
式 以 及 具体 的 数据 结构 做 出 灵活 更 改 。 这 部 分 接口 实现 逻辑 灵活 ， 但 是 最 终 输出 必须 满足 上 述 的 
中 间 件 规定 才能 与 其 他 模块 交互 。 


Public interface FetchService extends Runnable{ 
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public void fetch () 
Public void init(); 
public void stop(); 
1 


如 以 上 代码 所 示 , 其 中 FetchService 是 底层 的 数据 采集 抽象 服务 接口 ，init 和 stop 方法 分 别 用 
于 起 止 操作 时 的 准备 工作 ， 而 数据 抽取 之 前 ， 必 须 通过 init 获取 所 需 的 数据 平台 接 入 安全 信息 ， 
如 果 需 要 审核 授权 的 即 为 用 户 提供 授权 流程 。 类 中 声明 了 fetch 方法 ， 用 于 存放 抓 取 逻辑 ， 具 体 的 
抓 取 罗 辑 可 视 情 况 而 定 ， 但 必须 保证 其 包含 了 对 服务 开启 和 关闭 的 准备 工作 ， 满 足 该 接口 的 方法 
实现 ， 才 能 接 入 到 数据 采集 平台 中 ， 使 用 相关 的 数据 采集 资源 ， 例 如 数据 平台 接 入 安全 机 制 、 元 
数据 结构 等 。 


3. 存储 架构 设计 


系统 的 存储 架构 在 设计 时 ， 由 于 需要 考虑 到 不 同 的 存储 需求 ， 以 及 后 续 的 分 析 ， 首 先 应 当 把 
规范 和 实现 分 离 。 为 了 抽象 数据 存储 的 模块 接口 ， 我 们 把 存储 架构 也 分 为 两 个 部 分 ， 其 一 为 数据 
库 接 入 接口 ， 其 二 为 数据 存储 操作 。 


(1) 数据 库 接 入 接口 

数据 库 接 入 服务 负责 对 数据 库 平台 的 接 入 ， 可 以 提供 满足 对 应 平台 安全 机 制 的 接 入 方式 ， 并 
且 支 持 扩展 。 因 此 用 户 可 以 自由 选择 使 用 所 需要 的 数据 库 来 满足 后 续 对 数据 分 析 处 理 的 个 性 化 需 
求 。 

(2) 数据 存储 操作 

数据 库存 储 服 务 负责 对 已 解析 后 的 数据 进行 具体 的 存储 操作 ， 由 于 数据 抽取 模块 的 中 间 件 规 
约 ， 这 部 分 存储 逻辑 相对 简单 ， 既 可 逐条 存储 抽取 获得 的 数据 ， 也 可 以 设置 缓冲 区 ， 将 存储 和 抽 
取 异 步 分 离 。 


Public interface FetchService extends Runnable{ 
public void log(String uid,ArrayList<Weibo> weibo); 


如 以 上 代码 所 示 ， 其 中 FetchService 是 底层 的 数据 采集 抽象 服务 接口 ， 声 明了 log 方法 ， 用 于 
存放 、 存储 操作 ， 此 处 的 存储 操作 ,将 序列 化 的 时 间 线 , 即 一 个 微 博 列表 存储 到 相应 的 用 户 id 下 ， 
来 表示 一 个 用 户 与 feed 的 关系 ， 满 足 该 接口 的 方法 实现 ， 才 能 接 入 到 数据 采集 平台 中 ， 使 用 相关 
的 数据 采集 资源 ， 例 如 数据 存储 客户 端 、 数 据 库 检索 服务 等 。 


4. 数据 库 设计 


数据 库 为 了 适应 需求 ， 需 要 对 中 断 操 作 前 的 状态 进行 存储 ， 以 便于 重新 部 署 时 不 用 再 从 头 
始 抓 取 ， 对 每 个 节点 操作 也 需要 加 入 时 间 惟 等 标识 信息 ， 并 且 需 要 考虑 到 重复 元 余数 据 的 反复 存 
取 带 来 的 性 能 降低 。 














234 


第 6 章 采用 OSGi 框架 构建 可 伸缩 的 异 构 数 据 采 集 平 台 





本 平台 采用 基于 key-value 的 NoSQL 数据 库 ， 在 实现 中 使 用 了 Redis 内 存 数据 库 作为 缓存 。 
Redis 是 一 个 key-value 存储 系统 。 和 Memcached 类 似 ， 它 支持 存储 的 value 类 型 相对 更 多 ， 包 括 
string (字符 串 )、list (链表 )、set (集合 )、zset (sorted set， 有 序 集合 ) 和 hashset( 哈 希 类 型 )。 
这 些 数据 类 型 都 支持 push/pop、add/remove、 取 交集 、 并 集 和 差 集 及 更 丰富 的 操作 ， 而 且 这 些 操 
作 都 是 原子 性 的 。 在 此 基础 上 ，Redis 支持 各 种 不 同方 式 的 排序 。 与 Memcached 一 样 ， 为 了 保证 
效率 ， 数 据 都 是 缓存 在 内 存 中 。 区 别 的 是 Redis 会 周期 性 地 把 更 新 的 数据 写 入 磁盘 或 者 把 修改 操 
作 写 入 追加 的 记录 文件 ， 并 且 在 此 基础 上 实现 了 masterslave 〈 主 从 ) 同步 。 

如 图 6.10 所 示 为 采集 平台 数据 关系 图 。 我 们 将 之 前 抽象 的 Weibo 元 数据 信息 存储 于 单个 表 中 ， 
按照 不 同 的 平台 区 分 用 户 User 的 个 人 信息 ， 并 通过 feed _list 与 timeline 来 关联 两 者 之 间 的 映射 ， 
这 样 可 以 有 效 减 少数 据 见 余 。 


dm 数据 关系 图 / 









* timeStamp «column» 

conetnt curent_uid 
curent_wid 
curent_timeStamp 











+ PK_Weibo() 
«Unique» 
+ UQ Weibo_wid() 


«column» 
“PK uid 
«column» platform 
*PK appkey feed _list 
appsecret timeline 
platform 


Token «PK» 


+ PK_User) 
«Unique» 
+ UQ User uid0 







+ PK_OAuth_info() 











图 6.10 采集 平台 数据 关系 图 


同时 ， 为 了 提高 抽取 效率 ， 增 强 可 用 性 和 系统 错误 恢复 的 能 力 ， 我 们 需要 一 个 表单 保存 当前 
抽取 的 信息 ， 如 当前 节点 User 的 uid、 当 前 抽取 Weibo 的 wid。 并 且 为 了 减少 重复 获取 数据 平台 
授权 带 来 的 安全 隐患 ， 以 及 减少 使 用 复杂 程度 ， 可 以 将 数据 平台 的 申请 授权 信息 、 权 限 令 牌 等 加 
密 后 保存 于 数据 库 中 ， 方 便 日 后 调用 。 

建立 好 关系 型 数据 后 , 可 以 将 其 用 key-value 的 形式 , 在 内 存 数据 库 中 构建 可 分 布 式 部 署 的 数 
据 ， 以 满足 高 速 存 取 与 检索 的 需求 。 
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6.4.2 ”数据 采集 插件 的 设计 与 实现 


数据 抽取 、 解 析 、 存 储 模 块 插件 ， 是 本 章 系统 的 核心 功能 模块 ， 且 是 唯一 与 外 部 异 构 数据 接 
触 的 部 分 。 
基本 的 抽取 、 解 析 、 存 储 功能 模块 序列 如 图 6.11 所 示 。 




















R。 启动 
请 求 原始 节点 数据 








原始 数据 
部 析 后 数据 《包括 外 向 边 》 | 





; 存 结 指 令 





披 据 外 向 边 夺 代 抽取 
1 二 





持久 化 
[| 持 廊 化 损 作 


i 











图 6.11 抽取 、 解 析 、 存 储 功 能 模块 序列 图 


以 Twitter 抽取 解析 存储 插件 的 实现 为 例 , 该 抽取 插件 的 数据 接 入 实现 了 OAuthBundle 中 声明 
的 OauthAccessService 接口 。 该 接口 使 用 了 Scribe-Java 实现 的 OAuth 2.0 授权 机 制 代码 库 ， 使 用 
HTTPClient 实现 了 Twitter 的 RESTful API 数据 请 求 。 获 得 JSON 数据 ， 可 用 于 后 续 的 解析 模块 。 
每 次 抽取 以 用 户 uid 为 节点 ， 好 友 List 为 外 部 链接 ， 广 度 优先 遍历 以 实现 息 虫 逻辑 。 在 息 取 的 过 
程 中 ， 记 录 路 径 节点 的 数据 ， 将 其 存储 于 内 存 数 据 库 ， 等 待 持久 化 。 

该 插件 的 类 图 结构 如 图 6.12 所 示 。 
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TeitterFriends DetchServicelrp} 





GET_FRIENTS_Ds_ URL 
GET_FOLLOWERS_IDs_URL 
GET_STATUS BY_ID_IEL 


sop 


“https:/ /api, tvitter. con/ 1. I/friends/ ids, json” 
“https://api,tvitter. con/1. l/followers/ids. jsom” 
“https:// mpi. twitter. cow 1. l/statuses/user tineline. json” 


3 Strine 

:Strine 

: String 

: JSONObject 

: TtterOauthIspl 
: Jedis 

: Response 

3 OauthRequest 

: HashSet Strine> = new HashSet<Strine> 0 
: volatile boolean = false 





《nolenent>> init () 
Anolenert>> fetch 0 


CAmplement)> log 
《Glenent>》 stop () 


PE 





: void 
: void 
terch_ids () 1 JSONArray 
torch fids_by_id ‘object id) : JSONArray 
SA (Object fid) : void 
( : woid 
: void 
run () : void 








0 WwitterfetchService 





es 





+ 





图 6.12 抽取 、 解 析 、 存 储 功能 插件 类 图 


twitterFetchAPIBundle 的 自动 化 构建 脚本 展示 了 相关 依赖 和 OSGi 所 使 用 的 依赖 以 及 元 数据 信 


息 ， 如 下 所 示 。 
Gradle 自动 构建 脚本 


编译 部 分 : 





Gradle 自动 构建 脚本 


元 数据 定义 : 
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每 个 FetchServiceBundle 与 之 类 似 ， 数 据 的 抽取 依赖 于 特定 的 安全 、 接 入 的 实现 

(crawler.api.service.oauthAccess， 此 处 依赖 于 ScribeOAuthAPIBundle 中 的 具体 实现 ) 和 抽取 J 逻辑 

接口 (crawler.api.service.fetch， 此 处 为 该 模块 内 部 针对 平台 特征 定义 )。 数 据 的 解析 依赖 于 特定 的 
解析 插件 (JSON-libBundle )。 数 据 的 存储 也 依赖 于 特定 的 存储 插件 (JedisBundle )。 


1. 抽取 模块 的 设计 与 实现 


(1) 数据 接 入 与 抽取 逻辑 设计 

数据 接 入 的 异 构 数据 平台 的 特点 之 一 就 是 数据 接 入 方式 的 差异 性 。 

针对 这 一 点 ， 我 们 把 一 些 需要 预先 准备 的 授权 机 制 ， 都 包含 在 OAuthBundle 中 ， 通 过 声明 
OAuthAccessService 接口 来 抽象 数据 接 入 的 方法 。 

而 抽取 逻辑 ， 按 照 原始 数据 的 组 织 方式 不 同 ， 按 照 拓扑 结构 来 探索 外 部 数据 ， 将 这 部 分 逻辑 
抽象 为 包含 Fetch() 方 法 的 FetchService 接口 ,可 以 通过 友 代 每 次 的 外 部 链接 ,或 者 好 友 ID 列表 等 
方式 来 进行 指定 层 数 的 广度 优先 遍历 ， 以 此 实现 数据 采集 的 了 朴 虫 逻辑 。 

数据 接 入 序列 图 如 图 6.13 所 示 。 
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返回 模 权 网 址 


登录 模 权 页 ， 获 各 包含 Co 的 回 油 网 直 











存 央 各 cessTolea， 以 供 下 次 志 从 [ 





图 6.13 数据 接 入 序列 图 


每 次 抽取 数据 前 先 校 验 数 据 库 中 的 授权 信息 是 否 存在 ， 如 果 不 存在 则 请 求 授权 ， 经 过 OAuth 
2.0 机 制 完 成 对 数据 平台 的 接 入 ， 并 存储 相关 信息 以 供 之 后 使 用 。 





抽取 逻辑 序列 图 如 图 6.14 所 示 。 
FetchService 了 ESTfnl 笋 据 平 台 


获 阮 cceksTolea 





EE Ta ben 








6.14 ”抽取 多 辑 序列 图 
抽取 逻辑 ， 即 传统 的 网 页 候 虫 逻辑， 结合 SNS 网 状 结 构 ， 使 用 好 友 ID 列表 等 信息 代替 外 向 
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链接 。 将 该 列表 序列 化 后 ， 为 HTTP 请 求 提供 参数 ， 通 过 迭代 抽取 该 列表 数据 即 可 实现 深度 优先 
的 爬虫 允 辑 。 


(2) 抽取 模块 的 实现 

数据 模块 需要 实现 数据 接 入 和 抽取 逻辑 两 个 功能 点 ， 对 应 多 平台 数据 ， 需 要 的 接 入 方式 也 不 
尽 相同 ， 因 此 对 于 这 个 模块 的 接口 抽象 ， 首 先 需要 考虑 接 入 数据 的 方式 ， 再 解决 抽取 步骤 迭代 的 
逻辑 部 分 。 本 章 所 述 系统 定义 了 FetchService 服务 接口 ， 凡 是 实现 该 接口 的 类 ， 均 可 作为 插件 接 
入 系统 的 后 续 功能 模块 ，FetchService 依赖 于 OAuthBundle 内 定义 的 授权 方式 ， 以 及 具体 实现 的 
Fetch() 方 法 定义 的 抽取 逻辑 。 两 者 结合 ， 组 成 了 数据 抽取 模块 。 

以 腾讯 微 博 的 OAuth 2.0 实现 为 例 ，OAuth 允许 用 户 提供 一 个 令 牌 ， 而 不 是 用 户 名 和 密码 来 
访问 他 们 存放 在 特定 服务 提供 者 的 数据 。 每 一 个 令 牌 授权 一 个 特定 的 网 站 (例如, 视频 编辑 网 站 ) 
在 特定 的 时 段 (例如 ， 接 下 来 的 2 小 时 ) 内 访问 特定 的 资源 (例如 仅仅 是 某 一 相册 中 的 视频 )。 这 
样 ，OAuth 允许 用 户 授 权 第 三 方 网 站 访问 他 们 存储 在 另外 的 服务 提供 者 上 的 信息 ， 而 不 需要 分 享 
他 们 的 访问 许可 或 他 们 数据 的 所 有 内 容 。 

每 个 FetchServiceImpl 类 实现 了 继承 自 FetchService 的 具体 服务 接口 ， 同 时 ， 为 了 并 发 特性 ， 
也 实现 Runable 接口 来 实现 多 线程 并 发 抽取 ， 通 过 这 种 方式 ， 可 以 有 效 利 用 网 络 延迟 的 时 间 来 解 
析 数 据 ， 同 时 也 可 以 并 行 多 个 平台 的 抽取 插件 ， 以 保证 数据 的 实时 性 。 

在 获得 接 入 权限 后 ， 利 用 获取 的 令 牌 ， 可 以 调用 数据 源 平台 API 资源 。 
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如 上 面 代码 清单 中 所 示 ， 其 中 腾讯 微 博 平台 的 数据 采用 REST 方式 组 织 ， 按 照 腾讯 微 博 开放 
平台 官方 文档 说 明 ， 可 以 通过 HTTP 客户 端 ， 请 求 数据 源 返回 JSON 格式 的 数据 ， 通 过 用 户 的 好 
友 列 表 ， 可 以 构建 关系 网 络 ， 并 通过 迭代 好 友 列 表 的 方式 ， 实 现 深度 优先 的 数据 抽取 。 


fetch( 方 法 提供 了 数据 的 抽取 罗 印 ， 这 里 使 用 深度 优先 遍历 ， 利 用 好 友 关 系 ， 构 建 网 状 结构 
的 关系 数据 ， 并 且 通 过 解析 重 构 节点 数据 ， 确 保 传 入 数据 存储 模块 时 的 信息 满足 元 数据 模型 规约 
的 数据 结构 要 求 。 
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其 中 的 迭代 参数 ， 是 一 个 关注 者 id 名 单列 表 ， 通 过 一 个 JSONArray 作为 中 间 件 来 传递 ， 并 
且 使 用 解析 器 提取 了 键 为 openid 的 内 容 。 之 后 的 目标 数据 抽取 ， 也 是 通过 之 前 抽取 的 关注 者 id 
名 单列 表 ， 对 抽取 后 数据 进行 解析 和 重 构 ， 这 部 分 工作 交 由 解析 器 和 抽取 逻辑 来 协同 完成 ， 如 下 
面 的 代码 清单 所 示 。 
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2. 解析 模块 的 设计 与 实现 

数据 解析 是 将 异 构 的 原始 数据 提取 出 关键 的 元 数据 信息 ， 其 中 包括 节点 的 拓扑 结构 ， 以 及 节 
点 本 身 的 数据 ， 我 们 对 数据 的 基本 模型 抽象 后 得 出 一 个 通用 的 存储 格式 ， 而 数据 解析 正 是 从 多 平 
台 异 构 数据 中 取得 这 些 共性 内 容 ， 青 组 织 后 存储 ， 以 便 后 续 的 数据 挖掘 、 分 析 研 究 。 

(1) 解析 模块 的 设计 

解析 模块 的 序列 图 如 图 6.15 所 示 。 


; 原始 数据 H 





6.15 解析 模块 序列 图 
解析 模块 相对 其 他 模块 使 用 更 频繁 ， 在 设计 时 更 多 考虑 了 高 内 聚 低 耦 合 的 要 求 ， 对 数据 的 传 
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输 仅仅 依靠 纯 文 本 来 作为 参数 和 返回 值 。 这 样 有 助 于 解析 过 程 独立 于 系统 存在 ， 也 方便 抽象 出 接 
口 ， 以 供 实现 时 的 代码 更 加 简洁 明了 。 

(2) 解析 模块 的 实现 

对 数据 的 解析 和 重 构 是 本 系统 插件 主要 解决 的 问题 ， 在 插件 所 实现 的 抽取 和 存储 逻辑 中 均 需 
要 使 用 解析 服务 ， 为 此 可 以 直接 引用 现 有 的 工具 库 ， 例 如 由 于 Twitter 使 用 的 数据 格式 采用 了 
JSON, 因此 调用 了 JSON 的 库 。 于 是 在 OSGi 的 头 文件 中 声明 JSON-lib 中 相应 的 包 名 作为 解析 所 
需 的 Import-Package。 

对 于 其 他 的 需求 ， 同 样 可 以 使 用 相应 实现 的 解析 包 来 协助 我 们 把 数据 重 构成 统一 的 格式 。 其 
方法 与 本 例 相 同 ， 也 是 将 解析 服务 封装 成 Bundle 后 ， 在 头 文件 中 声明 import 包 名 。 在 此 不 再 组 


3. 存储 模块 的 设计 与 实现 


为 了 异 构 数据 的 高 效率 抽取 ， 并 且 方 便 之 后 的 使 用 、 分 析 ， 针 对 单一 平台 、 单 一 数据 库 模式 
带 来 的 低 效 率 以 及 受 磁盘 IO 等 环境 影响 的 问题 ， 本 系统 支持 分 布 式 的 数据 抽取 和 存储 方式 。 对 
于 存储 模块 ， 本 系统 使 用 了 Redis 内 存 数据 库 中 间 层 ， 以 作为 持久 化 数据 库 的 补充 ， 其 实现 使 得 
内 存 的 高 效 与 磁盘 的 低 成 本 大 数据 存放 。 


(1) 存储 模块 的 设计 
该 模块 的 序列 图 如 图 6.16 所 示 。 


用 ' 























已 看 构 后 的 数据 








图 6.16 存储 模块 序列 图 


本 系统 的 数据 存储 考虑 到 大 数据 量 、 不 断 变 化 的 需求 都 会 遇 到 磁盘 IO 效率 受 限 的 问题 ， 由 
此 会 影响 到 插件 的 抽取 效率 ， 因 此 设计 时 采用 了 Redis 的 内 存 数据 库 ， 作 为 中 间 层 缓存 ， 这 样 在 
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需要 快速 存 取 数据 时 可 以 发 挥 内 存 数 据 库 高 速 搜索 的 优势 ， 而 当 遇 到 需要 持久 化 时 ， 在 服务 上 发 
送 指令 即 可 完成 由 Redis 向 MySQL 的 Dump 操作 。 


(2) 存储 模块 的 实现 

数据 存储 的 过 程 中 ， 需 要 考虑 写 入 和 覆 写 带 来 的 磁盘 寿命 的 问题 ， 本 系统 中 采用 了 COW 
(Copy on Write) 机 制 以 及 内 存 数 据 库 来 简化 这 一 问题 。 

如 下 面 的 代码 清单 所 示 ， 对 腾讯 微 博 数据 的 存储 可 以 简单 抽象 为 将 每 个 用 户 节点 与 其 时 间 线 
数据 映射 的 存储 。 


Public void 1log (String uid, ArrayList<Weibo> timeline) { 

jedis .hset("tencent:uid:" + uid, "time line", JSONArray.fromObject (timeline) . 
tostring()); 

} 


而 数据 节点 间 的 组 织 关系 ， 则 由 抽取 时 获得 的 用 户 关 注 列表 来 表示 ， 且 通过 检验 的 手段 避免 
重复 写 入 列表 。 
if (jedis .hget("tencent:uid:"” + id, "followers ids") != null) 
fdatas = JSONArray. fromObject (jedis.hget ("tencent:uid:" + id, "followers ids")); 
else { 
getJsonArray("0", id, fdatas); 
jedis.hset ("tencent:uid:" + id, "followers ids", fdatas.toString()); 
} 


与 数据 抽取 模块 相似 ， 在 数据 存储 模块 中 要 处 理 的 内 容 是 数据 抽取 模块 与 数据 解析 模块 协同 
合作 完成 的 。 当 数据 需要 更 新 或 添加 时 ， 首 先 使 用 Jedis 客户 端 来 对 Redis 内 存 数 据 库 缓存 ， 而 当 
需要 持久 化 时 ， 再 调用 相关 函数 ， 提 取 内 存 中 的 数据 ， 保 存 到 磁盘 上 。 


6.4.3 ”系统 服务 框架 的 设计 与 实现 


系统 服务 框架 是 本 系统 的 管理 模块 ， 是 负责 管理 各 数据 抽取 、 解 析 、 存 储 插件 模块 生命 周期 
以 及 提供 添加 更 新 服务 的 框架 。 

该 模块 需要 实现 OSGi 规范 约定 ， 以 Bundle 机 制 提供 初始 化 和 结束 时 的 具体 处 理 ， 为 了 适应 
平台 的 增加 、 内 容 的 变化 ， 因 此 要 把 该 模块 的 接口 与 具体 插件 实现 分 离 ， 单 纯 地 作为 组 织 管理 的 
实现 ， 为 用 户 提供 友好 的 后 台 管 理 界面 ， 并 且 采 用 RESTful 设计 模式 ， 将 对 框架 的 操作 简化 为 状 
态 指令 ， 来 适应 今后 对 多 平台 控制 方式 的 需求 变化 。 


1. 服务 框架 控制 插件 的 设计 与 实现 


(1) 插件 起 止 操作 的 设计 
遵循 OSGi 的 规范 ， 本 系统 中 的 插件 服务 ， 按 照 示 例 Activator 的 设计 ， 需 要 实现 两 个 方法 ， 
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用 于 为 插件 开启 前 准备 和 关闭 前 的 状态 保存 等 操作 。 

对 数据 的 具体 操作 都 封装 在 数据 抽取 、 解 析 、 存 储 插件 中 ， 因 而 服务 框架 只 需要 专注 管理 这 
些 线程 的 调度 问题 即 可 。 

插件 起 止 操作 的 序列 图 如 图 6.17 所 示 。 





了 etchService 插 件 




















共 闭 精 件 “调用 线 和 -ton 修改 伪 呈 





杖 老 








站- 


图 6.17 插件 管理 激活 器 序列 图 


在 插件 中 实现 的 Runable 接口 ， 由 于 Java 的 线程 结束 机 制 ， 必 须 将 占用 资源 返还 JVM 后 再 
进行 关闭 线程 的 原子 操作 。 为 此 ， 可 以 设置 一 个 信号 量 stop 用 以 表示 该 插件 的 状态 ， 该 信号 量 对 
外 部 可 见 。 服 务 框架 模块 的 插件 起 止 操 作对 该 信号 量 进行 监控 和 修改 ， 而 插件 内 部 每 次 抽取 和 迭代 
都 会 对 该 信号 量 检 验 ， 当 该 信号 量 被 更 改 ， 插 件 就 会 执行 保留 当前 状态 的 操作 ， 并 停止 工作 进入 
阻塞 态 。 

(2) 插件 起 止 操作 的 实现 

根据 OSGi 规约 ， 插 件 服务 的 启动 与 结束 操作 ， 可 以 抽象 为 Activator 的 start0 与 stop() 接 口 实 
现 ， 凡 是 实现 该 方法 的 插件 ， 均 可 以 接受 OSGi 框架 的 动态 绑 定 管理 ， 为 了 数据 的 安全 ， 以 及 抽 
取 的 效率 ， 本 系统 把 该 框架 操作 上 升 到 线程 级 别 ， 通 过 改变 插件 内 部 的 线程 信号 量 ， 来 告知 插件 
需要 进行 起 止 的 准备 工作 ， 并 且 对 框架 管理 服务 模块 反馈 ， 以 此 告知 用 户 是 否 起 止 完 毕 ， 并 且 便 
于 后 续 的 客户 端 随时 监控 各 插件 的 状态 。 

该 模块 实现 的 类 图 如 图 6.18 所 示 。 
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TwitterFetchService © TencentFetchService SinaFetchService 站 
{Service) {Service) (Service) 
crawlerService 和 crawlerService 





























TwitterActivator TencentActivator SinaActivator 
-crawlerServiceTracker : ServiceTracker<?, ?> -crawlerServiceTracker : ServiceTracker<?, ?> -crawlerServiceTracker : ServiceTracker<?, ?> 
-crawlerService : TwitterFetchService -crawlerService : TencentFetchService -CrawlerService ; SinaFetchService 
+twitter : Thread -tencent : Thread -sina: Thread 
+start( BundleCortext context ) : void +startf BundleContext context ) : void +start( BundleCortext context ) : void 
+stop( BundleContext context ]) : void +stop( BundleContext context ] : void +stop BundleContext context ]) : Yoid 

















Activator 





Moan Treed 


HexunFetchService ‘_) -crawlerServiceTracker ' ServiceTracker<?, ?> 
(Sorvice) -crawlerService : HeXunFetchService 








Se Il ES ey; 3 
图 6.18 插件 管理 激活 器 类 图 
当 start() 方 法 被 调用 时 ， 信 和 号 量 stop 设 为 false， 则 在 插件 的 抽取 模块 中 ， 可 以 夫 代 抽取 逻辑 


部 分 ， 直 到 深度 遍历 结束 。 
当 stop() 方 法 被 调用 时 ,信号 量 stop 设 为 tue， 则 该 插件 的 验证 信号 量 被 激发 ， 迁 代 抽取 届 辑 


部 分 进入 阻塞 态 并 释放 所 占用 的 资源 ， 在 这 之 前 ， 对 当前 抽取 节点 的 数据 进行 保存 ， 并 且 等 待 下 
一 次 信号 量 改变 。 

2. 服务 框架 管理 工具 的 设计 与 实现 

根据 框架 管理 功能 需求 的 约定 ， 插 件 服务 框架 需要 实现 一 个 基于 RESTful 的 管理 工具 。 

(1) 管理 工具 的 设计 

该 工具 需要 实现 的 功能 包括 : 监视 插件 运行 状态 ， 管 理 员 能 够 通过 发 送 指令 控制 插件 的 开启 
和 关闭 ， 并 能 添加 或 更 新 插件 。 

插件 起 止 操作 的 序列 如 图 6.19 所 示 。 
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图 6.19 管理 工具 插件 起 止 操作 序列 图 


插件 管理 工具 的 功能 用 例 主要 包括 三 个 内 容 ， 其 中 插件 状态 是 跟踪 OSGi 框架 内 部 实现 的 
Bundles 状态 ， 而 开启 、 关 闭 插件 以 及 更 新 插件 的 操作 均 基 于 OSGi 框架 的 RESTful 特性 , 通过 客 
户 端的 POST 会 话 ， 上 传 新 插件 或 更 新 插件 。 

每 当 操作 完成 ， 均 会 调用 查询 命令 ， 以 此 更 新 插件 的 状态 显示 ， 保 证 监控 的 及 时 性 。 管 理工 
具 的 控制 台 界 面 设计 如 图 6.20 所 示 。 
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SNS 胆 息 平 台 沪 制 重 查询 数据 


模块 状态 


Bundle information: 23 bundles in total - all 23 bundles active. 


E27 国 图 


state 
Active 
Actve 
Actve 
Active 
Active 
Arctive 
Actve 
Actve 
Actve 
Actve 
Actve 
Actve 
Actve 
Active 
Active 
Actve 
Achve 
Active 
Aclive 
Actve 
Actve 


Active 





Active 





420 
277 
130vz01101211617 


156 


150 





110v20030501071000 


图 6.20 管理 工具 的 控制 台 界 面 


(2) 管理 工具 的 实现 








本 管理 工具 是 B/S 架构 的 Web 应 用 ， 基 于 Nodejs 的 轻 量 Web 框架 Express 开发 ， 该 框架 是 
MVC 架构 ,将 RESTful 的 插件 状态 json 数据 放 到 view 模板 解析 。 而 与 框架 交互 的 命令 等 需要 考 


虑 安全 问题 的 功能 ， 则 在 Server 端 执行 。 


本 工具 核心 代码 ， 是 基于 URL 路 由 的 命令 ， 因 此 也 满足 RESTful 设计 规范 ， 其 实现 的 核心 


代码 如 下 所 示 。 
控制 台 Bundles 状态 获取 代码 : 


app .get ('/console' function (req, res){ 

var list="''; 

Var options = { 
hostname:'felix.torchz.net', 
port:8080, 
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控制 台 命令 发 送 代码 : 


由 于 本 工具 使 用 B/S 架构 ， 为 了 提高 浏览 器 兼容 性 ， 并 且 吕 免 不 同 前 端 JavaScript 解释 器 实 
现 不 同 可 能 造成 的 异常 ， 将 URL 路 由 与 服务 管理 命令 相关 联 ， 只 需要 单 击 链接 即 可 发 送 命令 到 
框架 ， 完 成 开启 关闭 插件 的 任务 ， 并 且 支 持 上 传 插件 文件 ， 以 此 来 调用 框架 动态 绑 定 机 制 ， 实 现 
动态 更 新 插件 内 容 。 
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部 署 与 测试 


6.5.1 系统 部 署 


1. 数据 采集 平台 的 部 署 


首先 确保 系统 包含 Java 1.6 以 上 的 虚拟 环境 ， 并 且 包 含 JDK 开发 组 件 。 本 数据 采集 平台 基于 
OSGi 标准 构建 ， 因 此 支持 OSGi 的 各 个 框架 实现 。 在 本 节 中 以 较为 流行 的 OSGi 实现 框架 Felix 
为 例 介 绍 整个 系统 的 部 署 方法 。 

Felix 是 一 个 OSGi 版 本 4 规范 的 Apache 实现 。 

OSGi 是 一 个 基于 Java 的 服务 平台 规范 ， 其 目标 是 被 需要 长 时 间 运 行 、 动 态 更 新 、 对 运行 环 
境 破坏 最 小 化 的 系统 所 使 用 。 有 许多 公司 (包括 Eclipse IDE， 它 是 第 一 个 采用 OSGi 技术 的 重要 
项 目 ) 已 经 使 用 OSGi 去 创建 其 微 内 核 和 插件 架构 ， 以 允许 在 运行 时 刻 获得 好 的 模块 化 和 动态 组 
装 特性 。 其 他 几 个 项 目 如 Apache Directory、Geronimo、Jackrabbit、Spring 以 及 JOnAS 也 都 正在 
转向 采用 OSGi。 

目前 Felix 已 经 实现 了 OSGi R4 规范 中 的 大 部 分 内 容 。Felix 的 官方 地 址 为 : 
http://felix.apache.org/site/index.html。 

在 获取 Felix 最 新 版 本 的 已 编译 文件 后 ， 可 以 通过 $ java -jar bin/felix.jar 来 启动 框架 。 

数据 存储 模块 使 用 了 Redis 数据 库 作为 数据 缓存 的 内 容 ， 因 此 ， 在 部 署 环境 时 还 需要 编译 并 
部 署 Redis 内 存 数据 库 服务 ， 以 供 数据 抽取 存储 平台 的 客户 端 调 用 。 

Redis 是 一 个 高 性 能 的 key-value 数据 库 。Redis 的 出 现在 很 大 程度 上 补偿 了 Memcached 这 类 
key/value 存储 的 不 足 ， 在 部 分 场合 可 以 对 关系 数据 库 起 到 很 好 的 补充 作用 。 它 提供 了 多 种 语言 编 
写 的 客户 端 ， 使 用 和 扩展 都 十 分 方便 。 

在 Redis 官方 网 站 http://www.redis.io/ 下 载 Redis 数据 库 源码 ， 或 通过 以 下 方式 来 下 载 编译 
Redis 数据 库 : 


$ wget http://redis.googlecode.com/files/redis-2.6.14.tar.gz 
$ tar xzf redis-2.6.14.tar.gz 

$ cd redis-2.6.14 

$ make 


至 此 , Redis 数据 库 编译 完成 , 运行 $ src/redis-server, 可 以 看 到 数据 库 服务 器 启动 的 欢迎 界面 。 
保持 该 server 进程 运行 ， 可 为 Redis 客户 端 提供 内 存 数 据 管理 服务 。 

另外 ， 当 需要 进行 分 布 式 部 署 时 ，OSGi 框架 也 支持 远程 部 署 ， 并 且 可 以 通过 自 带 的 
Bundle-start-level 来 确定 部 署 各 插件 时 的 启动 顺序 和 优先 级 。 

在 多 台 服 务 器 的 部 署 上 ， 可 以 引用 Redis 数据 库 的 主 从 分 布 式 架构 ， 也 可 以 单独 提取 多 个 服 
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务 器 的 数据 ， 通 过 合并 操作 来 完成 对 数据 的 分 布 式 处 理 和 统一 持久 化 。 

2. 数据 采集 平台 管理 工具 的 部 署 

数据 采集 平台 的 管理 工具 ， 独 立 于 原 OSGi 框架 ， 以 便于 对 其 部 署 时 ， 不 用 考虑 环境 情况 ， 
由 Felix 自 带 的 OSGi Web Console 进行 满足 RESTful 的 指令 交互 。 用 户 可 以 使 用 数据 采集 平台 的 
管理 工具 来 监控 插件 运行 时 信息 , 并 且 支 持 对 插件 的 扩展 和 更 新 , 这 一 系列 操作 独立 于 其 他 插件 ， 
可 以 动态 部 署 ， 并 支持 安全 机 制 的 添加 ， 管 理 员 可 以 要 求 对 管理 工具 的 权限 进行 分 配 ， 要 求 用 户 
登录 后 才能 获得 开关 、 上 传 、 更 新 插件 的 权限 。 

数据 采集 平台 的 管理 工具 基于 Nodejs 的 异步 编程 环境 ， 不 管 是 部 署 环境 还 是 对 功能 的 扩展 
非常 方便 快捷 ， 采 用 B/S 架构 ， 可 以 适应 更 多 的 平台 接 入 该 管理 工具 ， 同 时 也 保证 了 服务 随时 可 
用 ， 支 持 远 程控 制 等 额外 需求 。 

Nodejs 是 一 个 可 以 快速 构建 网 络 服务 及 应 用 的 平台 。 该 平台 的 构建 基于 Chrome's JavaScript 
Runtime, 也 就 是 说 , 实际 上 它 是 对 Google V8 引擎 (应 用 于 Google Chrome 浏览 器 ) 进行 了 封装 。 

V8 引擎 执行 JavaScript 的 速度 快 ， 性 能 好 。Node 对 一 些 特殊 用 例 进 行 了 优化 ， 提 供 了 替代 
的 API， 使 得 V8 在 非 浏 览 器 环境 下 运行 得 更 好 。 例 如 ， 在 服务 器 环境 中 ， 处 理 二 进 制 数据 通常 
是 必 不 可 少 的 ， 但 JavaScript 对 此 支持 不 足 ， 因 此 ，V8.Node 增加 了 Buffer 类 ， 方 便 并 且 高 效 地 
处 理 二 进 制 数据 。 因 此 ，Node 不 仅仅 简单 地 使 用 了 V8， 还 对 其 进行 了 优化 ， 使 之 适应 更 多 的 服 
务 端 环境 。 

Nodejs 作为 一 个 新 兴 的 后 台 语 言 ， 有 很 多 吸引 人 的 地 方 : RESTful API、 单 线程 、 非 阻塞 IO、 
V8 虚拟 机 、 事 件 驱 动 ，Nodejs 可 以 在 不 新 增 额外 线程 的 情况 下 ， 依 然 可 以 对 任务 进行 并 行 处 理 
一 一 Nodejs 是 单线 程 的 ， 它 通过 事件 轮 询 (Event Loop) 来 实现 并 行 操作 ， 对 此 ， 我 们 应 该 要 充 
分 利用 这 一 点 一 一 尽 可 能 地 避免 阻塞 操作 ， 多 使 用 非 阻 塞 操 作 。 

部 署 Node.js 也 非常 简单 ， 以 Linux 的 发 行 版 Ubuntu 为 例 ， 首 先 确保 系统 包含 所 有 的 包 。 








$ sudo apt-get install g++ curl libssl-dev apache2-utils 
$ sudo apt-get install git-core 


准备 好 系统 环境 后 ， 在 Nodejs 官网 http://nodejs.org/ 下 载 二 进 制 已 编译 包 , 或 者 源码 自行 编 
译 。 设 置 好 环境 变量 后 ， 即 可 调用 node 解释 器 。 


$ export PATH=”$HOME/local/node/bin:$PATH” 
$ export NODE PATH="”$HOME/local/node:$HOME/local/node/lib/node modules” 


在 这 里 直接 运行 之 前 写 好 的 脚本 : 
$ node console/app.js 


之 后 通过 浏览 器 访问 http://localhost:3000/console 即 可 见 到 如 图 6.21 所 示 的 界面 。 
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SNS 由 虫 平台 。 ”党 市 各 。 查 光 数据 
模块 状态 
Bundle information: 23 bundles in total - all 23 bundles active. 
王玉林 EX 伯 国 图 
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ar 155 如 人 
160 学 人 
120 RF 
100 操作 
100 掺 作 
20 部 人 
on 学 作 
x 1 a 
所 人" 
拘 作 
操作 ~ 
A ol 六 人 
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10 操作 
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621 运行 界面 


在 该 界面 中 ， 可 以 支持 对 插件 的 更 新 、 加 载 、 启 动 、 停 止 等 操作 ， 得 益 于 分 布 式 部 署 的 情况 ， 
我 们 可 以 在 不 同 的 平台 上 访问 这 些 数据 采集 平台 的 资源 ， 并 且 能 够 及 时 做 出 修改 。 


6.5.2 ”系统 测试 


1. 功能 测试 结果 与 分 析 


本 系统 的 控制 台 是 需要 进行 功能 测试 的 主要 模块 ， 围 绕 服务 框架 插件 管理 的 各 项 功能 ， 按 照 
测试 用 例 设计 ， 对 该 模块 进行 了 功能 测试 。 
如 图 6.22 为 插件 管理 工具 页 面 ， 包 含 了 插件 当前 信息 的 展示 。 
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实战 大 数据 


模块 状态 


Bundle informatiorc 23 bundles ntotal - all 23 bundles active. 











图 6.22 插件 管理 工具 页 面 


系统 的 各 模块 插件 状态 信息 都 会 展示 在 控制 台 页 面 ， 包 括 插件 id、 插 件 名 、 插 件 所 处 状态 、 
版 本 号 等 信息 ， 并 且 可 以 通过 单 击 操作 指令 ， 开 启 和 关闭 插件 。 
如 图 6.23 所 示 为 更 新 /添加 插件 功能 测试 。 


SNS 妥 忠平 台 控 详 查询 数据 


模块 状态 ; 


Bundle information: 23 bundles in total, 20 bundle| sae. saxe= 








”2 
) FetchClertBundle 


EC 天 上 HeanfethNeieundke 
有 edundle 
| 人 
A | orgepachedebewebcorscle-40.0 
选择 文件 | 未 过 择 文件 避 jsScribsoAuthApIBunrdle 
feiboFetdhApIauncle 
ncentWeiboFetchaAP[Bundle 





上 waterFatdhaplBundle 


id name 
D System Bundle 


7 antirrepackaged for OSGI 





10 Apache Commons Codec Plug-in Active 1.3.0v201101211617 操作 ” 


6.23 ”更 新 /添加 插件 功能 测试 


通过 单 击 选择 文件 ， 设 置 相关 选项 ， 并 提交 新 插件 文件 ， 可 以 更 新 插件 版 本 ， 或 增加 新 的 插 
件 服务 。 经 测试 新 上 传 的 插件 可 以 经 由 OSGi 动态 绑 定 机 制 ， 良 好 部 署 并 运行 在 平台 中 。 
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第 6 章 采用 OSGi 框架 构建 可 伸缩 的 异 构 数据 采集 平台 
2. 性 能 测试 结果 与 分 析 
性 能 测试 环境 如 表 6.1 所 示 。 

表 6.1 性 能 测试 环境 约定 





软件 语种 中 文 、 英文 





测试 时 间 2013 年 05 月 15 日 至 2013 年 05 月 20 日 

















硬件 型 号 : 客户 机 i7/4GB 
测试 环境 服务 器 : Xeron 1.6GHz/1024MB CentOS 
软件 异 构 微 博 数据 抽取 、 解 析 、 存 储 平台 
运行 平台 : Windows 7，Apache Felix OSGi Framework 
测试 站 点 http://felix.torchz.net:3000/console 








针对 性 能 的 测试 ， 包 括 单一 平台 数据 抽取 的 性 能 测试 ， 以 及 多 平台 同步 抽取 的 性 能 测试 。 两 
者 各 进行 了 24 小 时 。 
(1) 单一 平台 数据 抽取 、 解 析 、 存 储 性 能 测试 
单 平台 数据 抽取 以 腾讯 微 博 开 放 平 台 的 API 数据 接 入 方式 为 例 。 
测试 结果 如 图 6.24 所 示 。 





12N52) “Feneent:: nid: 3 
12053) “bencent:uld: C34#C30315EE L001 308DS9708SASAS8D05™ 
12054) “tencent:uld:GESO0AFICDOLFFDFTIFBGATOA2S9FO1DSE™ 
12055) “tencent:uld:CAMAGIDFIDLIATO0SEFITLLFFINGC2FIC™ 
12056) “bencent:uld:ELlrATEOIITIBCBCFBOINDADGCITBFOED” 
12057) “bencenciuild:4703409409E85194C6T747D907937EOE” 
12058) “cemcenciuld:k4t6F6567FD6LBGCF1B2443FS6FTE3TC” 
12059) “bencent:uld: 1FSB1FOSEAGG6ESDIDGCIDFOOEBASZ0C™ 
12060) “bencenc:uld:E689396BAFTCBO4T74LCI3EDA4L6347D391” 
LEUb1) ~ bencent: ud: Eno TIOFDETED TAACHILFOI DU LALD™ 
12062) “cemcenc:uld:0035294F653766E0LUGLUC27F93B0875” 





12063) “bencent:uld: FSSBEB204983E 459F706&7D6698E9149" 
12064) “bencent:uld:EADAZZ0DOFCOFTG0TATBIICF2L0S83" 
L2065) “ccmocmciuddiBDSETAEG262C7， ASEDC3BGS” 
12066) “bcencenc:uld:762699C414934ED19507D4607BDE24BCL” 
12067) “bencent:uld: 1LCI92F6KE55496DDBCFS6644BC17BBS4F” 
12068) “bencent:uld: ee 
12069) “bencent:uld: 2349F74C6522D43) 

12070) 相让 Te 全 
12071) “bemcenc:uld:EF2D4FD90609CF351D74LLCC76306336” 
12072) “bencent:uld:3269177CSCFOLB474267C969CICZBIFE™ 
12073) “cemcenc:uld:B69T7E1364602B51F026C2201490EDE39” 
12074) “bencenc:uld:BCrdr5D44BOF64F203372CBCDE768491” 
12075) “cencenciuld:9214697D48CLEEGC239ALABFE9681207” 
12076) “cemcenc:uld:094L4ECT7C25766892BF4FC4BE9919CC5” 
L2077) “bemcenc:uld:i3k&590DFT295935EK31BIE93020CFD6T&” 
12070) -cencenc:uLd:CL:0Z3ODCCZ39F3O039GCL5F3OADAZCDTL 一 
L2079) “cemcenciuld:al13k22CD64EDODEC6436250006035S4F9646” 
12060) “bcemcenc:uld:67CF2500505SC643EDC9TCUC7IE68SC32” 
12081) “ceocenc:uld:3EEBFEE993509C94CCTA5S66E51D7BF6” 


12087) “bcemcenc:uld:B68446u6265SBEE814599401162265D1L” 
12088) “tencent:uld: E1948676AS1FSAEINB7LA7SSDCO6 
12089) “cemcenciuld:04631639BC5i62609943031D442E7B6OD” 
12090) “cemcenc:uld:B9486644C1B4269239698195624405446” 
{79.98s) 

pedis 127.0.0.1:6379> 目 


图 6.24 腾讯 微 博 数据 抽取 测试 结果 
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实战 大 数据 


24 小 时 内 抽取 数据 累计 12090 条 , 约 7 秒 每 条 , 考虑 到 API 接 入 频率 限制 每 小 时 600 条 单 人? 
请 求 ， 该 抽取 插件 良好 地 完成 了 既定 目标 。 
(2) 多 平台 数据 抽取 、 解 析 、 存 储 性 能 测试 
多 平台 数据 抽取 测试 包含 腾讯 、 新 浪 、Twitter、 和 讯 等 多 平台 数据 接 入 方式 。 
测试 结果 如 图 6.25 所 示 。 





59324] “bencent: uld:0041 ECTC2S5766092DFAFCABEIILICCS™ 
S9925) “twitber:uld:27779611” 

S9926) “twitber: uld:8275916L0" 

S9927) “sina:uld:2704747357" 

S9928) “Lencent: uld:&3k590DFF2BS93SEILDFEIIDZOCFDGT7A" 


59340) “sina:uld:2149247197" 
S9941) “Lencent: ulLd:E56104D026BSE26CC66E272644966873B” 
59942) “Cencenc: uld:656132FC7PF608532Z72F1F149528590D60” 
59343) “Cuitber:uld:75179467" 
59344)] “bencenb: ulLd: 6G2CB2547E61FU056205260322016056DG” 
59945) “almaluld:2029169153” 
59346) “alnaluld:1799265321” 








图 6.25 多 平台 数据 抽取 测试 结果 


24 小 时 内 抽取 数据 累计 59962 条 ， 约 1.4 秒 每 条 ， 考 虑 到 网 络 传输 瓶颈 限制 ， 本 系统 平台 在 
服务 器 端的 数据 抽取 已 达到 高 效 高 速 的 需求 ， 适 当 通过 增加 服务 器 人 台数 改善 网 络 环境 可 以 很 简单 
地 提高 抽取 效率 。 

3. 遗留 缺陷 说 明 

系统 依然 仍 存在 的 缺陷 和 需要 考虑 的 bug 如 表 62 所 示 。 
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表 6.2 系统 存在 的 缺陷 











| 序号 [ 缺 了 描述 所 属 模块 遗留 原因 影响 分 析 
异常 处 理 不 成 熟 存在 由 网 SSL 请 求 超时 或 服 | 终止 让 取 涩 辑 ， 从 
! | 络 才 引起 的 中 断 妆 拓 抽取 插件 模 泌 | 务 器 返回 503 锚 误 | 当前 节点 重新 开始 
原始 数据 不 完整 ， 
数据 结构 缺失 造成 解析 结 自动 检验 关 绕 过 不 
下川 各 人 | 角 析 不 统 性 不 | zt 所 分 





本 章 小 结 


本 章 对 系统 进行 测试 ， 并 对 测试 结果 进行 分 析 。 在 系统 实现 的 过 程 中 ， 严 格 按 照 测 试 驱动 开 
发 ， 为 各 模块 编写 了 单元 测试 用 例 ， 并 以 此 推动 开发 的 进行 。 各 项 功能 测试 用 例 ， 根 据 需 求 规约 
设计 ， 从 用 户 角 度 考 量 ， 对 各 项 功能 ， 包 括 数据 接 入 、 插 件 管理 等 与 用 户 直接 接触 的 模块 做 了 测 
试 。 性 能 测试 方面 ， 分 别 对 单一 平台 和 多 平台 数据 做 了 测试 ， 确 认 系 统 可 用 性 高 、 伸 缩 扩展 性 强 
且 高 效 、 低 资源 占用 的 特性 。 

经 测试 证 明 ， 本 系统 完成 了 既定 目标 ,可 以 实现 需求 确定 的 各 项 功能 ,并且 在 抽取 效率 方面 ， 
性 能 可 观 。 

至 此 我 们 为 与 情 监控 系统 建立 了 一 个 可 伸缩 的 异 构 数据 采集 平台 ， 通 过 这 个 平台 可 以 便捷 地 
更 新 插件 以 适应 异 构 数据 结构 的 变化 ， 同 时 也 可 以 对 功能 进行 扩充 ， 并 且 通 过 动态 部 署 的 方式 ， 
保证 本 系统 的 持续 运行 和 高 可 用 性 。 

在 伸缩 性 方面 ， 该 平台 不 仅 支持 对 系统 的 高 层 插件 的 更 新 和 增加 ， 还 可 以 对 系统 自身 功能 进 
行 扩展 或 者 性 能 增强 ， 这 些 都 是 依赖 于 满足 OSGi 规范 的 服务 接口 设计 框架 ， 通 过 这 种 模式 ， 我 
们 可 以 获得 一 个 高 效 伸缩 性 强 的 数据 采集 途径 ， 为 与 情 监 控 系 统 的 后 续 分 析 处 理 ， 提 供 统一 格式 
的 源 数据 ， 减 少 后 续 数 据 梳理 的 难度 和 整个 系统 的 复杂 程度 。 
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第 7 章 
深 用 HBase 实 现 海量 路 型 XML 文 档 
的 存储 与 检索 


本 章 主 要 介绍 了 采用 HBase 实现 海量 小 型 XML 文档 的 存储 与 检索 ， 结 合 实际 问题 ， 对 该 系 
统 的 功能 性 需求 和 非 功能 性 需求 进行 了 详细 描述 ， 逐 步 深 入 分 析 ， 给 出 系统 的 概要 设计 及 详细 设 
计 ， 并 给 出 系统 关键 点 的 实现 。 通 过 本 章 的 学 习 ， 读 者 可 对 采用 HBase 数据 库 进 行 大 数据 的 存储 
与 检索 处 理 有 一 定 的 理论 与 设计 经 验 。 


应 用 背景 


近年 来 ， 随 着 互联 网 技术 的 飞速 发 展 ， 特 别 是 物 联网 技术 的 兴起 ， 网 络 数 据 的 信息 量 正在 爆 
炸 性 增长 。 随 着 信息 量 的 飞速 增长 ， 对 数据 的 存储 和 检索 的 要 求 也 越 来 越 高 。 无 论 是 政府 、 高 校 、 
科研 机 构 或 者 企 事业 单位 的 数据 管理 系统 ,还 是 网 络 论坛 .SNS 网 站 等 应 用 ,或 者 是 “智慧 城市 ”、 
“智能 物流 ”等 物 联网 后 端 管理 平台 ， 都 必须 解决 飞速 增长 的 数据 资源 以 及 网 络 用 户 不 断 增加 所 
导致 的 技术 难题 ， 传 统 的 数据 存储 解决 方案 在 面 对 海量 数据 时 显得 力不从心 。 本 章 的 内 容 来 源 于 
某 “ 物 联网 数据 管理 平台 ”实际 项 目 ， 致 力 于 解决 海量 小 型 XML 文档 的 存储 与 检索 问题 。 

网 络 数据 资源 的 存在 方式 多 种 多 样 ， 但 以 XML 为 代表 的 半 结 构 化 数据 ， 以 其 对 逻辑 和 内 容 
的 合理 到 合 以 及 灵活 的 组 织 方式 ， 在 应 对 千变万化 的 应 用 需求 中 更 具 优 势 。 特 别 是 在 物 联网 环境 
`“， 数 据 大 多 为 具有 一 定 意义 的 数字 或 文本 ， 而 XML 数据 以 其 不 拘 于 结构 约束 并 能 良好 表述 信 
息 内 容 的 优势 ,已 经 成 为 物 联网 中 数据 传输 的 核心 标准 ， 目 前 流行 的 诸如 BITXML、PML 等 物 联 
网 数据 交换 标准 都 是 以 XML 为 基础 。 然 而 ， 数 以 百 万 计 的 传感器 网 络 或 智能 终端 时 时 刻 刻 在 产 
生 数 据 ， 针 对 固定 某 一 种 应 用 ， 产 生 的 数据 往往 是 格式 固定 或 大 致 相同 ， 单 个 数据 文件 一 般 都 较 
小 ,但 数量 是 庞大 的 海量 的 ,这 使 得 物 联网 后 端的 数据 处 理 平台 需要 能 够 应 对 海量 的 小 规模 XML 
文件 的 存储 和 查询 检索 工作 ， 但 传统 的 解决 方案 在 处 理 规模 和 性 能 等 方面 存在 着 瓶颈 。 

目前 国际 对 XML 数据 的 存储 和 检索 的 研究 主要 集中 在 三 个 方面 : 第 一 种 是 以 关系 数据 库 为 
核心 的 数据 存储 和 检索 方式 ， 这 种 方式 一 般 需 要 将 XML 数据 通过 一 定 的 映射 方式 转换 为 关系 模 
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型 ,并 分 表 存 储 在 关系 数据 库 中 , 针对 XML 中 的 节点 进行 编码 , 通过 关系 约束 将 XML 文件 按照 
关系 模型 分 表 存 储 。 这 种 方式 能 够 有 效 实现 数据 存储 和 关键 字 检 索 , 并 支持 通过 SQL 语言 进行 查 
询 ， 但 对 海量 数据 支持 不 足 ， 当 文件 数 和 数据 量 上 升 到 一 定 程度 ， 其 性 能 瓶颈 越发 凸显 ， 此 外 由 
于 采用 关系 映射 ， 一 定 程度 上 会 造成 信息 丢失 。 第 二 种 是 以 Native XML 数据 库 为 核心 的 数据 存 
储 和 检索 方式 ， 这 种 方式 采用 类 似 文档 式 的 存储 模型 ， 能 够 较 完 整 保留 原 XML 文件 中 的 所 有 信 
息 ， 并 能 够 完美 支持 XQuery 等 面向 XML 的 查询 语言 , 但 基于 文件 式 的 存储 方式 ,仍然 无 法 有 效 
解决 海量 数据 下 的 存储 和 检索 。 第 三 种 则 是 在 分 布 式 环境 下 ， 采 用 以 NoSQL 数据 库 为 核心 的 存 
储 和 检索 方式 ， 这 种 方式 以 其 良好 的 可 扩展 性 为 立足 点 ， 能 够 对 海量 数据 提供 高 性 能 的 存储 和 查 
询 支 持 ， 逐 渐 成 为 近年 来 研究 的 一 个 热点 。 

然而 ， 由 于 一 般 分 布 式 环境 的 复杂 性 ， 带 来 了 诸如 负载 平衡 、 灾 备 恢复 等 问题 ， 在 部 署 和 维 
护 上 也 较为 复杂 。 在 此 基础 上 , 云 计 算 技 术 开 始 飞 速 发 展 。2007 年 底 , IBM 推出 蓝 云 (Blue Cloud) 
计算 平台 ， 并 首次 明确 提出 云 计算 技 术 的 概念 。 一 般 情 况 下 ， 云 计算 是 指 通过 将 计算 能 力 和 所 处 
理 的 信息 分 布 在 大 量 的 分 布 式 计算 机 上 ， 而 非 本 地 计算 机 或 远程 服务 器 中 ， 在 此 基础 上 完成 资源 
的 存储 和 计算 处 理 ， 其 核心 思想 是 应 用 计算 模式 决定 底层 计算 模型 。Google 是 最 早 应 用 云 计算 平 
台 的 厂商 之 一 , 它 提出 了 著名 的 Bigtable 存储 模型 和 对 应 的 Map/Reduce 计算 模型 , 用 于 解决 海量 
数据 的 存储 和 检索 问题 ， 取 得 了 巨大 的 成 功 。 近 年 来 ， 云 计算 技术 飞速 发 展 ， 目 前 已 经 成 为 构建 
基于 海量 信息 存储 和 检索 的 分 布 式 应 用 的 主流 计算 技术 。 

由 于 云 计算 技术 在 海量 数据 存储 和 检索 中 的 优势 ， 采 用 云 计算 平台 作为 物 联网 后 端的 数据 管 
理 平台 是 一 种 趋势 ， 因 此 ， 如 何 将 物 联网 终端 所 产生 的 海量 小 型 XML 数据 有 效 地 存储 在 云 计 算 
环境 中 ， 并 能 够 支持 高 效 的 数据 检索 ， 具 有 非常 明显 的 现实 意义 。 

根据 以 上 的 背景 分 析 ， 基 于 云 计算 平台 的 海量 XML 数据 存储 和 检索 技术 具有 非常 大 的 发 展 
前 景 ， 因 此 ， 有 必要 在 云 计 算 平 台 上 对 海量 小 型 XML 文档 的 存储 与 检索 技术 进行 深入 研究 。 





需求 分 析 与 总 体 设 计 


7.2.1 需求 分 析 


需求 分 析 就 是 研究 用 户 具 体 需要 得 到 的 形式 化 的 需求 结果 ， 需 要 在 完全 理解 用 户 对 软件 需求 
的 完整 功能 的 基础 上 取得 。 用 户 需 求 包 括 功 能 需求 和 非 功 能 需求 ， 其 中 功能 需求 描述 一 个 系统 必 
须 提供 的 功能 和 服务 , 而 非 功 能 需求 描述 一 个 用 户 体验 很 好 的 系统 的 其 他 特征 、 特点 和 约束 条 件 ， 
现 对 本 系统 进行 功能 及 非 功 能 需求 分 析 。 

1. 功能 性 需求 分 析 

针对 项 目 需 求 分 析 文 档 ， 待 处 理 的 数据 具有 以 下 特征 : 
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实战 大 数据 


日 数据 源 数量 多 且 分 布 广 。 传感器 作为 物 联网 中 的 数据 采集 装置 ， 数 量 非常 大 ， 而 在 空间 上 


则 呈现 稀疏 分 散 特 性 。 因 此 ， 数 据 源 采集 到 的 数据 需要 反馈 到 一 个 统一 的 数据 处 理 平 台 
上 ， 需要 一 个 支持 分 布 式 计算 和 存储 的 架构 。 

单个 数据 文件 小 但 总 数据 量 大 。 每 个 传感器 返回 给 数据 处 理 平台 的 单个 数据 文件 很 小 ， 只 
包含 了 单位 时 间 内 采集 到 的 数据 ， 但 传感器 数量 可 能 达到 百 万 级 ， 并 且 数 据 更 新 较 快 。 因 
此 需要 选用 的 数据 存储 系统 能 够 支持 海量 数据 ， 并 同时 对 小 文件 的 处 理 具 有 较 高 的 性 能 。 


® 根据 实际 情况 ， 传 感 器 采集 的 数据 可 能 会 增加 。 在 本 项 目 中 ， 由 于 系统 运行 期 间 ， 可 能 会 


对 传感器 传 回 的 数据 结构 根据 实际 情况 进行 一 些 调整 ， 例 如 在 环境 监测 中 新 参数 的 引入 
等 。 因 此 需要 后 端 存储 系统 的 数据 模式 较为 灵活 ， 主 要 是 能 够 适应 数据 项 的 添加 。 

支持 模式 无 关 ( Schema-free ) 的 XML 数据 。 本 项 目的 数据 来 源 主要 有 两 类 ， 除 了 传感器 
采集 到 的 数据 外 ， 还 有 一 类 是 遗产 性 数据 ， 由 于 数据 文件 数目 比较 大 ， 因 此 希望 能 够 不 需 


要 事先 提取 所 有 数据 文件 的 模式 ， 而 能 够 在 处 理 数据 文件 的 同时 动态 调整 存储 结构 。 


针对 以 上 特点 ， 本 文 所 提出 的 海量 小 型 XML 数据 存储 和 检索 平台 应 该 满足 以 下 设计 目标 : 


。 能 够 支持 海量 的 XML 数据 的 存储 并 能 较 好 地 适应 单个 文件 在 KB 级 别 的 
文件 的 应 用 场景 。 


大 规模 小 XML 


@ ”系统 应 具有 高 可 扩展 性 ， 考虑 到 分 布 式 系统 中 数据 一 致 性 问题 对 数据 安全 的 影响 ( 特别 是 


在 军事 系统 中 ) ， 因 此 存储 系统 最 好 具有 强 一 致 性 。 


@ 平台 的 数据 存储 接口 应 该 支持 模式 无 关 的 XML 文件 的 存储 ， 能 够 适应 新 的 XML 文档 中 


增加 的 节点 的 存储 。 
e 支持 高 性 能 的 数据 检索 操作 ， 并 具有 友好 的 数据 检索 接口 。 


根据 项 目 背 景 和 设计 目标 ， 经 过 本 书 前 面 章 节 中 对 大 数据 的 存储 和 检索 技术 的 调研 和 分 析 ， 
项 目 人 员 决定 选用 HBase 分 布 式 存储 系统 作为 后 端 存储 的 数据 库 ， 采 用 XQuery 作为 前 端的 用 户 


查询 接口 。 





选用 HBase 作为 存储 数据 库 的 主要 是 由 于 : 第 一 ，HBase 作为 Hadoop 云 计 算 环 境 的 存储 系 
统 ， 以 HDFS 作为 底层 文件 系统 ， 具 有 高 可 扩展 性 ;第 二 ，HBase 本 身 采 用 强 一 致 性 模型 ， 同 时 
也 具有 不 错 的 可 用 性 ; 第 三 , HBase 定义 的 块 结构 为 64KB, 能 够 有 效 地 存储 小 文件 ; 第 四 , HBase 
采用 Key/Value 键 值 对 存储 ， 具 有 较 高 的 性 能 ， 并 且 原 生 支持 MapReduce 编程 框架 。 

选用 XQuery 作为 前 端 检索 查询 语言 , 则 主要 是 考虑 到 XQuery 在 XML 查询 领域 的 通用 性 和 














易 用 性 。 采 用 XQuery 作为 查询 语言 ， 一 方面 是 基于 XQuery 在 XML 查询 方面 的 





E 富 的 语义 及 通 


用 性 , 另 一 方面 XQuery 语言 规则 简单 ， 可 以 使 用 户 不 需要 太 多 额外 的 学 习 就 能 直接 使 用 本 文 所 


实现 的 平台 。 


经 过 需求 分 析 可 知 海量 小 型 XML 文档 存储 和 检索 平台 需要 完成 XML 数据 库 的 基本 功能 : 


e 存储 海量 XML 文档 到 HBase 集群 中 。 
@ ”利用 XQuery 语句 进行 数据 的 查询 检索 。 
@ 用 户 管理 控制 用 户 对 数据 表 的 可 见 度 。 
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因此 ， 系 统 组 成 部 件 应 如 图 7.1 所 示 。 






































平台 核心 模块 
¥ 
党 ; 
: 查 
愤 
块 块 
图 7.1 系统 组 成 部 件 


其 中 ,系统 的 核心 功能 是 对 海量 XML 文档 的 存储 和 利用 XQuery 为 前 端 查询 语言 的 检索 功能 ， 
同时 系统 还 要 有 用 户 登录 、 用 户 管理 等 功能 。 

用 例 图 主要 用 来 描述 “用 户 、 需 求 、 系 统 功能 单元 ”之 间 的 关系 。 它 展示 了 一 个 外 部 用 户 能 
够 观察 到 的 系统 功能 模型 图 。 用 例 图 帮助 我 们 以 一 种 可 视 化 的 方式 理解 系统 的 功能 需求 。 本 系统 


的 用 例 图 如 图 7.2 所 示 。. 





7.2 系统 用 例 图 
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从 用 例 图 中 可 以 看 出 该 系统 拥有 两 类 用 户 : 普通 用 户 和 管理 员 用户 。 管 理 员 具有 最 高 权限 ， 
除了 能 够 进行 有 关 数 据 的 所 有 操作 ， 还 能 够 进行 用 户 管理 操作 ， 用 户 管理 权限 包括 添加 用 户 、 删 
除 用 户 和 针对 HBase 中 的 每 个 数据 表 对 用 户 赋予 不 同 的 权限 ， 权 限 分 为 对 数据 表 可 读 、 可 读 写 和 
不 可 见 三 种 。 普 通用 户 只 能 进行 数据 有 关 的 操作 ， 并 且 在 具体 操作 时 检查 其 是 否 具有 相关 操作 的 
权限 。 数 据 有 关 的 操作 有 创建 删除 数据 表 、 导 入 数据 、 执 行 XQuery 查询 语句 等 。 

系统 上 下 文 数据 流 图 ， 是 用 来 建立 初始 的 系统 范围 的 过 程 模型 ， 也 称 为 环境 模型 。 图 7.3 是 
根据 系统 用 例 图 绘制 的 本 系统 的 上 下 文 数据 流 图 。 从 系统 上 下 文 数据 流 图 可 以 看 出 ， 本 系统 的 外 
部 代理 分 别 是 普通 用 户 和 管理 员 : 内 部 就 是 海量 XML 文档 存储 和 检索 平台 ;系统 需要 响应 普通 
用 户 和 管理 员 的 连接 登录 、 数 据 操作 等 事务 和 针对 管理 员 的 用 户 管理 事务 ;系统 必须 根据 各 种 操 
作 进行 响 应 ; 系统 的 外 部 存储 就 是 HBase 集群 服务 器 。 


普通 用 户 [ 


每 最 “ 档 存 
数据 库 操作 一 一 一 > eT 和 操作 响应 
连接 登录 i | 


连接 登录 
用 户 管理 
数据 库 操 作 














图 73 系统 上 下 文 数据 流 图 


下 面 对 本 系统 的 重点 用 例 采 用 用 例 表 格 的 方式 进行 分 析 。 
































表 7.1 描述 了 用 户 连接 登录 用 例 。 
表 7.1 连接 登录 用 例 表 
用 例 名 称 连接 登录 
用 例 标示 符 ucl 
优先 级 高 
普通 用 户 、 管 理 员 

用 例 描述 用 于 普通 用 户 和 管理 员 连 接 登 录 系 统 
前 置 条 件 远程 HBase 集群 已 启动 
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( 续 表 ) 





1. 编辑 HBase 服务 器 配置 文件 server.conf (本 步骤 为 可 选 操作 ) 
2. 启动 本 软件 系统 
和 











基本 流程 . 单 击 连接 登录 按钮 ， 弹 出 登录 界面 。 在 登录 界面 显示 从 配置 文件 读 取 的 信息 ， 同 时 
用 户 可 以 手动 编辑 。 填 写 用 户 名 和 密码 
5. 单 击 “ 登 录 ” 按 钮 

其 他 流程 单 击 “ 取 消 ”按钮 登录 界面 消失 ， 取 消 登录 操作 

异常 流程 系统 连接 服务 器 错误 或 者 用 户 名 密码 错误 系统 弹出 消息 对 话 框 进行 提示 

后 置 条 件 为 普通 用 户 和 管理 员 生 成 初始 界面 








该 用 例 用 于 普通 用 户 和 管理 员 的 连接 登录 操作 。 用 户 提供 远程 HBase 服务 器 的 用 户 名 和 密码 
信息 连接 登录 系统 ， 连 接 登 录 成 功 进 入 系统 后 才能 进行 后 面 的 针对 海量 XML 文档 的 操作 。 当 登 
录 者 是 普通 用 户 时 界面 只 加 载 数据 处 理 模块 并 根据 权限 列 出 用 户 可 见 的 数据 表 ， 当 登录 者 是 管理 
员 时 ， 则 加 载 数据 处 理 界面 和 用 户 管理 模块 并 列 出 系统 中 的 所 有 数据 表 。 

表 7.2 描述 了 存储 XML 文档 用 例 。 该 用 例 和 表 7.3 描述 的 XQuery 查询 用 例 是 本 系统 的 最 核 
心 的 用 例 。 存 储 XML 文档 用 例 描述 了 向 HBase 中 导入 海量 的 小 型 XML 文档 。 


表 7.2 存储 XML 文档 用 例 














用 例 名 称 存储 XML 文档 
用 例 标 示 符 uc2 
优先 级 高 
参与 者 普通 用 户 、 管 理 员 
用 例 描述 用 于 将 XML 文档 导入 HBase 数据 库 中 
前 置 条 件 用 户 成 功 登 录 ， 且 用 户 对 数据 表 有 可 写 的 权限 
1. 用 户 通过 单 击 界面 上 的 “上 传 文件 ”或 者 “上 传 文件 夹 ”按钮 或 者 在 数据 表 上 单 击 右 
键 选 择 
2. 通过 文件 选择 窗 体 进行 选择 XML 文件 或 者 文件 夹 
基本 流程 3. 对 XML 文档 进行 信息 抽取 ， 将 XML 文档 定义 为 XML 文档 树 ， 对 树 的 节点 〈 元 素 
或 属性 ) 进行 编码 
4. 将 XML 文档 与 HBase 映射 ， 存 储 编码 和 对 应 的 元 素 或 属性 值 
5. 存储 XML 文档 结束 
其 他 流程 于 
异常 流程 当 用 户 不 具有 对 数据 表 可 写 的 权限 或 者 上 传 文档 中 出 现 错误 时 进行 对 话 框 信息 的 提示 
后 置 条 件 无 
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实战 大 数据 

表 7.2 描述 了 存储 XML 文档 用 例 ， 通 过 该 用 例 用 户 完成 对 海量 XML 文档 的 存储 ， 在 具体 存 
储 XML 文档 操作 时 分 为 单个 文件 导入 和 整个 文件 夹 导入 存储 过 程 中 涉及 对 XML 文档 内 容 的 编 
码 和 XML 文档 与 HBase 数据 库 映射 等 操作 ， 属 于 系统 的 核心 功能 之 一 。 

表 7.3 描述 了 XQuery 查询 的 用 例 ， 用 例 中 以 XQuery 为 前 端 查询 语言 实现 对 存储 在 HBase 











中 的 海量 XML 进行 查询 。 
表 7.3 XQuery 查询 用 例 

用 例 名 称 XQuery 查询 
用 例 标示 符 uc3 
优先 级 高 
参与 者 普通 用 户 、 管 理 员 
用 例 描述 以 XQuery 为 前 端 查询 语言 对 存储 在 HBase 中 的 海量 XML 文档 进行 查询 操作 
前 置 条 件 用 户 成 功 登录 ， 且 用 户 对 数据 表 是 可 见 的 

1. 选择 将 要 查询 的 数据 表 

2. 在 查询 输入 框 中 输入 XQuery 语句 
基本 流程 3. 进行 词法 分 析 和 语法 分 析 ， 生 成 语法 树 

4. 遍历 语法 树 ， 结 合 HBase 的 过 滤器 等 操作 ， 完 成 具体 语句 的 查询 动作 

5. 在 结果 输出 框 中 显示 查询 结果 ， 并 显示 本 次 XQuery 查询 所 用 的 时 间 
其 他 流程 用 户 完成 XQuery 语句 的 查询 ， 可 以 单 击 “ 保 存 ” 按 钮 ， 将 查询 结果 保存 到 本 地 文件 中 
异常 流程 当 输 入 的 XQuery 语句 存在 语法 错误 时 ， 在 结果 输出 框 中 显示 具体 的 错误 信息 供用 户 参考 
后 置 条 件 无 











XQuery 查询 用 例 首 先 对 XQuery 语句 进行 解析 ， 然 后 结合 对 HBase 的 操作 完成 查询 操作 。 对 
于 海量 XML 数据 的 查询 是 非常 耗 时 的 ， 为 了 获得 良好 的 性 能 ， 要 充分 利用 HBase 自身 的 特点 ， 
例如 过 滤器 、 批 操作 等 。 同 时 在 实现 的 过 程 中 还 要 考虑 由 于 海量 数据 带 来 的 内 存 溢 出 等 问题 。 

























表 7.4 描述 了 用 户 管理 用 例 。 
表 7.4 用 户 管理 用 例 
用 例 名 称 | 用 户 管理 
用 例 标示 答 ud 





优先 级 





高 
管理 员 

管理 员 对 该 系统 的 用 户 进行 管理 
当前 登录 者 是 管理 员 
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( 续 表 ) 
1 管理 员 在 用 户 列表 上 单 击 右键 并 在 菜单 中 选择 “添加 用 户 ” 可 以 实现 添加 用 户 操作 
基本 流程 2. 在 菜 个 用 户 名 上 单 击 右键 并 在 菜单 中 选择 “删除 用 户 ”可 以 实现 出 除 操作 
3. 选择 某 个 用 户 ， 在 权限 界面 针对 每 个 数据 表 进 行 赋 权 操作 
其 他 流程 | 在 添加 用 户 时 管理 员 需 要 设置 用 户 的 初始 密码 
异常 流程 添加 已 存在 用 户 时 进行 提示 
后 置 条 件 用 户 管理 操作 后 将 信息 更 新 服务 器 记录 














只 有 管理 员 用 户 才 有 权限 进行 用 户 管理 ， 可 以 添加 用 户 、 删 除 用 户 和 针对 每 个 数据 表 进行 赋 
权 操作 。 用 户 的 管理 信息 保存 在 HBase 服务 器 端 。 


2. 非 功 能 性 需求 分 析 


非 功能 性 需求 是 指 软件 产品 为 满足 用 户 业 务 需求 而 必须 具有 的 除 功能 需求 以 外 的 特性 。 软 件 
产品 的 非 功 能 性 需求 通常 包括 系统 的 可 靠 性 可 维护 性 、 可 扩充 性 以 及 对 技术 和 业务 的 适应 性 等 。 
下 面 总 结 了 针对 本 系统 的 非 功 能 需求 。 


@ 易 用 性 : 本 系统 要 提供 良好 的 交互 界面 ， 符 合 大 部 分 用 户 的 使 用 习惯 ， 能 够 在 短暂 时 间 内 
学 会 该 系统 的 使 用 方法 。 

@ 可靠 性 : 要 求 系统 能 够 持续 可 靠 地 正常 运行 ， 并 具有 一 定 的 容错 性 ， 当 用 户 进行 一 些 非法 
操作 或 者 错误 操作 时 能 够 进行 信息 提示 并 中 断 操作 。 

e@ 性 能 : 在 执行 XQuery 语句 进行 海量 XML 数据 检索 时 ， 要 比 同 等 条 件 下 传统 数据 库 和 原 
生 XML 数据 库 用 时 更 短 。 








7.2.2 总 体 设 计 

好 的 架构 设计 能 够 提高 软件 系统 的 整体 质量 ， 有 利于 软件 系统 的 维护 、 升 级 和 修改 ， 对 整个 
系统 有 着 深远 的 影响 ， 可 以 让 开发 人 员 减 轻 解决 复杂 问题 的 负担 和 精力 。 

1. 系统 架构 图 


本 系统 以 分 布 式 数据 库 HBase 为 存储 介质 ,通过 将 XML 文档 编码 映射 存储 在 HBase 集群 服 
务 器 上 完成 对 海量 小 型 XML 文档 的 存储 ,使 用 XQuery 为 前 端 查询 语言 ,通过 解析 并 结合 HBase 
的 操作 完成 对 海量 XML 文档 的 检索 ; 系统 还 要 提供 良好 的 用 户 界面 。 通 过 上 述 描述 发 现 该 系统 
的 层次 非常 分 明 ， 适 合 使 用 三 层 模型 作为 整体 架构 ， 图 7.4 是 该 系统 的 系统 架构 。 
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用 户 界面 表现 层 
XML 文 档 存储 XQuery 查 询 业务 逻辑 层 
HBase 分 布 式 数据 库 数据 层 
图 7.4 平台 架构 图 


由 图 7.4 可 以 看 出 ， 本 系统 的 三 层 模型 分 别 为 表现 层 、 业 务 轴 辑 层 和 数据 层 。 有 具体 来 说 ， 前 
端 用 户 界 面 以 及 存储 和 查询 接口 为 表现 层 ， 用 于 显示 数据 和 接收 用 户 输入 的 数据 ， 为 用 户 提供 一 
种 交互 式 操作 。 中 间 XML 文档 的 存储 、XQuery 查询 等 系统 核心 处 理 部 分 构成 业务 逻辑 层 ， 该 层 
是 系统 的 核心 ， 主 要 处 理 用户 的 请 求 ， 负 责 对 数据 层 的 操作 。 底 层 HBase 分 布 式 数 据 库 是 系统 的 
数据 层 ， 用 于 存储 具体 的 XML 文档 数据 。 

该 系统 使 用 三 层 模 型 的 优点 有 : 

9 降低 层 与 层 之 间 的 依赖 ， 开 发 时 可 以 只 关注 整个 结构 中 的 其 中 某 一 层 。 

e@ 使 系统 的 结构 更 清楚 ， 分 工 更 明确 ， 有 利于 后 期 的 维护 、 升 级 和 功能 扩展 。 

e 有 利于 系统 各 层 罗 辑 的 复 用 ， 对 于 本 系统 ， 复 用 业务 逻辑 层 可 以 为 以 后 其 他 项 目 提供 应 用 

接口 。 
e@ 有 利于 标准 化 。 


系统 使 用 三 层 模型 有 以 上 优点 的 同时 也 有 些 缺 点 ， 例 如 由 于 采用 了 多 层 处 理 的 方式 ， 使 得 系 
统 的 多 个 业务 不 能 直接 访问 HBase 数据 库 ， 而 通过 业务 逻辑 层 访问 从 而 造成 了 系统 性 能 的 降低 。 
但 是 总 体 来 说 采用 三 层 模型 开发 该 系统 是 利 远 远大 于 浆 的 ， 该 架构 是 非常 合适 的 。 


2. 系统 总 体 设计 


由 需求 分 析 可 知 ， 海 量 小 型 XML 数据 存储 和 检索 平台 主要 可 以 分 为 三 个 模块 : 数据 存储 模 

块 、XQuery 查询 模块 和 用 户 模块 。 各 模块 主要 功能 如 下 。 
(1) 数据 存储 模块 

数据 存储 模块 负责 存储 海量 XML 数据 到 系统 中 , 其 输入 数据 是 大 量 的 小 型 XML 文档 , 而 结 
果 则 是 将 XML 文档 中 的 数据 按照 一 定 的 结构 顺序 存储 在 HBase 数据 库 中 。 数 据 存储 模块 会 根据 
输入 的 XML 文档 , 按照 XML2HBase 模型 映射 机 制 ， 对 当前 XML 文档 生成 一 个 映射 表 ， 这 是 一 
个 双向 映射 表 ， 能 从 一 个 XML 节点 的 路 径 映射 到 HBase 的 列 ， 同 时 也 能 够 从 HBase 的 列 找到 其 
XML 节点 路 径 。 


266 


第 7 章 采用 HBase 实现 海量 小 型 XML 文档 的 存储 与 检索 





(2) XQuery 查询 模块 

具体 来 说 , XQuery 查询 模块 又 包括 两 部 分 : 查询 解析 和 数据 检索 。 查 询 解析 模块 主要 负责 : 
用 户 输入 的 XQuery 查询 语言 经 过 解析 后 ， 按 照 XQuery 查询 语言 的 语义 ,构造 相应 的 语法 树 ， 遍 
历 XQuery 语法 树 ， 根 据 相应 的 语义 完成 对 数据 库 的 检索 ， 并 按照 一 定 的 规则 对 结果 进行 排序 并 
返回 给 用 户 .XQuery 查询 模块 的 核心 问题 是 如 何在 保证 检索 准确 的 情况 下 高 效 快速 地 得 到 检索 结 
果 ， 由 于 采用 Hadoop 作为 分 布 式 环境 ， 因 此 可 以 采用 MapReduce 并 行 计算 模型 ， 在 一 定 程度 上 
加 速 检索 效率 。 


(3) 用 户 模块 
用 户 模块 主要 是 对 系统 进行 多 用 户 支持 , 提高 系统 的 利用 率 , 同时 预防 某 些 用 户 的 恶意 操作 。 
与 用 户 模块 有 关 的 操作 有 用 户 登 录 、 管 理 员 管理 用 户 、 管 理 用 户 权限 等 操作 。 系 统 为 了 完成 以 上 
的 功能 或 操作 需要 在 服务 器 端 保存 用 户 的 用 户 名 、 密 码 、 针 对 每 个 XML 数据 表 的 权限 等 信息 ， 
当 用 户 登录 或 者 对 用 户 管理 时 对 HBase 上 的 数据 进行 查找 或 修改 。 
根据 图 7.4 的 系统 总 体 架构 可 以 看 出 , 数据 存储 和 XQuery 查询 作为 系统 两 大 核心 模块 , 其 设 
计 如 图 7.5 所 示 。 








XML2HBase 模式 映射 


数据 入 库 | 表 模 式 操作 基本 操作 条 件 查询 
由。 Drop 。 Scan 。 Filter 
由。 Alter » Put 











HBase 数据 库 








图 7.5 平台 核心 模块 


由 图 7.5 可 以 看 出 ， 从 存储 方面 来 看 ， 用 户 调用 前 端 XML 存储 API， 中 间 层 对 作为 输入 源 的 
XML 文档 进行 解析 ， 然 后 根据 XML2HBase 模式 映射 ， 将 XML 路 径 映 射 到 HBase 特定 的 列 ， 并 
存 入 数据 库 。 从 检索 方面 来 看 , 用 户 在 前 端 编写 XQuery 查询 语句 , 中 间 层 首先 解析 XQuery 语句 ， 
构建 相应 的 语法 树 ， 并 将 相关 数据 根据 XML2HBase 的 映射 替换 为 HBase 中 的 列 ， 再 调用 特定 的 
操作 函数 来 检索 数据 库 。 在 部 分 操作 上 引入 MapReduce 并 行 编程 框架 会 极 大 地 提升 存储 和 查询 速 
度 。 

除了 各 自 的 解析 模块 外 ， 都 使 用 到 XML2HBase 模式 映射 层 ， 这 是 因为 用 户 提交 的 XML 文 
档 和 XQuery 查询 语句 中 ， 都 是 基于 原生 的 XML 文件 的 操作 ， 用 户 看 到 的 是 XML 的 数据 模型 。 
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ED 
但 本 文中 的 海量 XML 数据 存储 和 检索 平台 事实 上 是 一 个 分 布 式 的 系统 ， 后 端 采用 HBase 作为 数 
据 库 , 因此 XML 数据 也 会 最 终 转化 为 HBase 所 支持 的 数据 模型 .因此 ,在 XML 数据 模型 和 HBase 
数据 模型 之 间 ， 需 要 有 一 种 映射 转化 模型 ， 支 持 双向 的 数据 模型 映射 ， 而 这 里 的 XML2HBase 就 
是 本 文 提出 的 一 种 数据 模型 映射 机 制 。 


相关 技术 介绍 


通过 前 面 的 分 析 ， 与 本 项 目的 解决 方案 相关 的 技术 有 XML 相关 技术 、XQuery 相关 技术 、 
HBase 相关 技术 以 及 JavaCC 相关 技术 。 在 本 书 前 面 章 节 已 经 对 HBase 有 过 相关 介绍 ， 所 以 本 节 
不 再 袭 述 。 


7.3.1 XML 相关 技术 


1. XML 简介 


在 W3C 发 表 的 XML 规范 中 详细 定义 和 解释 了 XML 相关 标准 。XML 通常 被 当 作 一 种 特殊 
的 半 结 构 化 数据 ， 它 具有 半 结 构 化 数据 不 规则 结构 、 隐 含 模式 信息 、 可 以 描述 数据 的 结构 信息 等 
特点 ， 同 时 也 有 自己 的 特征 。 

下 面 为 一 个 DBLP 文件 的 片段 ， 这 是 一 个 典型 的 XML 文件 。XML 文件 由 元 素 构成 ， 元 素 由 
开始 标记 和 结束 标记 来 标识 元 素 中 可 以 使 用 属性 来 区 别 。 其 中 dblp 和 article 都 是 元 素 ， 而 article 
元 素 中 的 key 和 mdate 则 是 属性 。<dblp> 是 开始 标记 ，</dblp> 是 结束 标记 ， 开 始 标 记 和 结束 标记 
是 成 对 出 现 的 ， 并 且 ， 标 记 可 以 嵌 套 ， 但 其 嵌 套 遵循 就 近 匹 配 的 原则 ， 相 同 的 元 素 起 始 标记 和 结 
东 标 记 对 称 出 现 。 例 如 <markA><markB>text</markB></markA>，markB 是 markA 的 子 元 素 ， 因 
此 markB 的 开始 标记 和 结束 标记 都 被 markA 包含 在 内 。 

<?xml version="1.0"?> 

<dblp> 

<article key="journals/ijcc/Sasikalall" mdate="2012-05-31"> 

<author>P. Sasikala</author> 

<title>Cloud computing: present status and future implications.</title> 
<year>2011</year> 

<journal>IJCC</journal> 

</article> 

<article key="journals/pvldb/Matsudairal0" mdate="2010-09-23"> 
<author>Paul Matsudaira</author> 


<title>High-End Biological Imaging Generates Very Large 3D+ and Dynamic 
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Datasets.</title> 
<year>2010</year> 
<journal>PVLDB</journal> 
</article> 
</dblp> 


可 以 从 上 述 XML 文档 中 发 现 ， 一 个 XML 文档 由 一 个 最 外 层 的 元 素 及 其 子 元 素 组 成 ,， XML 
元 素 之 间 存 在 着 嵌 套 关系 ， 两 个 元 素 之 间 存 在 上 下 层 关系 ， 而 同 层 元 素 之 间 具 有 一 定 的 顺序 。 元 
素 的 属性 为 元 素 提供 一 些 额外 的 内 容 信息 元 素 的 属性 在 元 素 的 开始 标记 中 给 出 一 般 表示 为 “ 属 
性 名 =' 属 性 值 ”， 其 中 属性 值 必须 使 用 单 引 号 或 者 双 引 号 括 起 来 。 一 个 元 素 的 属性 数目 不 限 ， 但 
属性 名 不 能 相同 。 

- 般 而 言 ， 从 数据 模型 角度 来 看 ， 可 以 将 XML 数据 建 模 为 树 结构 。XML 文档 中 的 元 素 是 树 
结构 中 的 节点 ， 树 中 的 边 表 示 元 素 之 间 的 父子 关系 。 一 个 元 素 的 属性 一 般 建 模 为 该 元 素 节点 的 一 
个 孩子 节点 。 树 形 结构 是 本 文 对 XML 建 模 的 基础 ， 在 XML 解析 、 处 理 过 程 中 ， 这 种 数据 模型 非 
党 有效。 


2. XML 解析 


XML 解析 就 是 解析 XML 文档 的 过 程 ,将 XML 文档 转换 成 一 种 计算 机 可 以 利用 的 数据 结构 ， 
方便 对 XML 文档 的 后 续 操作 。 目 前 ， 基 本 的 解析 方式 有 两 种 ， 一 种 是 SAX， 另 一 种 是 DOM。 
SAX 是 基于 事件 流 的 解析 ，DOM 是 基于 XML 文档 树 结构 的 解析 。 

DOM (Document Object Model) 也 称 为 文件 对 象 模型 ， 是 W3C 组 织 推荐 的 处 理 可 标记 语言 
的 标准 编程 接口 。DOM 可 以 以 一 种 独立 于 平台 和 语言 的 方式 访问 和 修改 一 个 文档 的 内 容 和 结构 。 
DOM 处 理 XML 文档 时 将 XML 文档 存 入 内 存 ， 将 页 面 上 数据 和 结构 进行 树 形 表 示 ， 用 户 可 以 使 
用 具体 的 DOM 操作 API 访问 树 的 节点 ， 并 可 以 对 数据 进行 修改 、 添 加 和 删除 等 操作 。 

SAX (Simple API for XML) 也 称 为 XML 简单 编程 接口 ， 是 一 个 通用 的 事件 驱动 的 XML 解 
析 器 ， 它 是 一 个 轻 量 型 的 解析 器 ， 已 得 到 广泛 的 应 用 ，SAX 在 解析 XML 文档 时 ， 不 在 内 存 中 创 
建 完整 的 XML 文档 树 , 而 是 基于 事件 驱动 , 因为 SAX 事件 驱动 的 本 质 , 处 理 文件 通常 会 比 DOM 
风格 的 解析 器 快 ， 占 用 内 存 少 。 





7.3.2 XQuery 语句 


1. XQuery 简介 


XQuery 为 XML Query， 是 W3C 所 制定 的 一 套 标准 ， 用 来 从 类 XML 文档 中 提取 信息 ， 类 
XML 文档 可 以 理解 成 一 切 符合 XML 数据 模型 和 接口 的 实体 。XQuery 相对 于 XML 的 关系 , 等 同 
于 SQL 相对 于 数据 库 表 的 关系 。XQuery 被 设计 用 来 查询 XML 数据 。XQuery 被 构建 在 XPath 
表达 式 之 上 ，XPath 即 为 XML 路 径 语言 (XML Path Language)， 它 是 一 种 用 来 确定 XML 文档 中 
某 部 分 位 置 的 语言 ， 主 要 实现 XQuery 语言 的 路 径 表 达 式 ， 是 XQuery 的 重要 组 成 部 分 。 
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XQuery 使 用 路 径 表 达 式 在 XML 文档 中 通过 元 素 进行 导航 。 下 面 的 路 径 表 达 式 用 于 在 
books.XML 文件 中 选取 所 有 的 title 元 素 : doc("books.XML")/bookstore/book/title。XQuery 使 用 谓 
语 来 限定 从 XML 文档 所 提取 的 数据 ， 下 面 的 谓语 用 于 选取 bookstore 元 素 下 的 所 有 book 元 
素 ， 并 且 所 选取 的 book 元 素 下 的 price 元 素 的 值 必须 小 于 30: 
doc("books.XML")/bookstore/book[price<30]。 

XQuery 的 规则 是 : 


e XQuery 对 大 小 写 敏 感 。 

@_ XQuery 的 元 素 、 属 性 以 及 变量 必须 是 合法 的 XML 名 称 。 

@ XQuery 字符 串 值 可 使 用 单 引 号 或 双 引 号 。 

ee XQuery 变量 由 “$” 并 跟随 一 个 名 称 来 进行 定义 ， 如 $bookstore。 
8 XQuery 注释 被 (: 和 :) 分 割 ， 例 如，(:XQuery 注释 :) 


2. FLWOR 表达 式 


许多 (不 是 全 部 ) XQuery 查询 结构 是 FLWOR 表达 式 ，FLWOR 语句 相当 于 SQL 中 的 
select-from-where 结构 ，FLWOR 由 for、let、where、order by 和 retum 这 几 个 表达 式 中 使 用 的 关 
键 字 的 首 字母 组 成 。 FLWOR 允许 对 结果 进行 操作 、 变 换 、 排 序 。 其 中 : 


@ ”for 语句 用 于 指明 查询 中 使 用 的 文档 、 上 声明 变量 、 并 把 变量 绑 定 到 某 个 节点 序列 上 。 

@ ”let 语句 用 于 对 for 语 句 指 定 范围 的 所 有 变量 进行 赋值 ， 若 没有 for 语句 ， 则 对 当前 的 所 有 
变量 进行 赋值 。 

@ where 语句 用 于 指定 条 件 ， 只 有 那些 满足 条 件 的 变量 才能 被 return 语句 返回 。 多 个 条 件 可 
以 通过 and 和 or 连接 。 

@ orderby 语句 用 于 把 for，let 语 句 指定 的 满足 where 条 件 的 记录 进行 排序 。 

ereturn 语句 指定 返回 的 结果 及 结果 的 形式 。 


7.3.3 XML 检索 技术 


1. XML 检索 技术 概述 


针对 XML 的 树 形 结构 ， 目 前 研究 者 已 经 提出 了 多 种 基于 路 径 表 达 式 的 查询 语言 ， 其 中 最 车 
名 的 就 是 XQuery 和 XPath。 为 了 能 够 有 效 地 支持 XML 的 内 容 和 结构 的 查询 ,很 多 研究 专家 都 提 
出 了 针对 XML 数据 的 一 些 编码 模式 和 索引 技术 。 

-种 编码 方案 需要 从 两 方面 来 衡量 其 有 效 性 : 节点 之 间 关 系 的 判断 和 查询 满足 特定 结构 关系 
的 节点 集 。 现 有 著名 的 编码 模式 如 Dewey 编码 、Dietz 编码 、Li-Moon 编码 、OrdPath 编码 等 。 其 
中 Dietz 编码 无 法 对 XML 树 结构 添加 节点 ， 除 非 对 树 的 所 有 节点 重新 编码 ，Li-Moon 编码 则 为 节 
点 插入 预 留 了 空间 ， 但 占用 的 资源 较 多 。 
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2. XML 编码 技术 


(1) Dewey 编码 

Dewey 编码 最 早 使 用 在 一 般 的 知识 分 类 系统 中 ， 是 一 种 前 级 编码 。Dewey 编码 方法 是 ， 在 处 
理 XML 文档 时 ， 对 每 一 个 节点 都 分 配 一 个 编码 ， 这 个 编码 是 从 文档 的 根 节点 到 当前 节点 的 路 径 。 
这 个 路 径 每 一 个 数值 都 是 一 个 祖先 节点 的 编码 ， 因 此 其 上 层 节 点 的 编码 是 当前 节点 编码 的 前 级 ， 
而 上 层 节点 与 孩子 节点 之 间 用 分 隔 符 “.” 隔 开 。 

如 图 7.6 是 一 个 Dewey 编码 的 实例 ， 这 棵 树 T 中 有 一 个 节点 n， 则 n 的 Dewey 编码 是 COD。 
若 节点 具有 一 个 孩子 节点 4 则 上 节点 的 Dewey 编码 CUD= Cm)n, 其 中 的 n 是 节点 4 在 节点 
的 所 有 孩子 中 的 序号 。 

() 


7.6 一 个 Dewey 编码 的 实例 


Dewey 编码 的 前 绥 编 码 特 性 使 得 判断 任意 两 个 节点 间 的 结构 关系 变 得 很 容易 ， 相 同 前 缀 必定 

具有 相同 的 祖先 节点 。 然 而 文档 更 新 时 ， 新 加 入 的 节点 会 影响 到 部 分 已 经 编码 的 节点 。 
(2) OrdPath 编码 

OrdPath 是 一 种 类 似 于 Dewey 编码 的 编码 方式 , 也 是 前 级 编码 的 一 种 。 OrdPath 中 对 于 父子 关 
系 的 节点 , 编码 规则 也 是 将 父 节点 的 OrdPath 编码 进行 扩展 得 到 子 节点 编码 。 举例 来 说 , 如 果 1.5.3 
是 父 节点 的 编码 ， 那 么 1.5.3.9 必定 是 该 节点 的 孩子 节点 。OrdPath 编码 与 Dewey 编码 的 主要 区 别 
在 于 ，OrdPath 中 将 偶数 节点 保留 ， 未 来 需要 插入 新 节点 时 使 用 偶数 节点 作为 父 节点 。 

例如 图 7.7 所 示 的 树 结构 。 初 始 编码 方式 , 树 T 中 有 一 个 节点 1 则 人 的 OrdPath 编码 是 C(m)。 
若 n 节点 具有 一 个 孩子 节点 hj， 则 上 节点 的 OrdPath 编码 CUD= C0.(2n+1)， 其 中 的 n 是 节点 上 
在 节点 mm 的 所 有 孩子 中 的 序号 。 如 果 需 要 在 初始 编码 结构 中 插入 一 个 新 的 节点 ， 例 如 节点 在 1.3 
和 1.4 之 间 , 那么 首先 在 13 和 1.5 之 间 的 位 置 插入 一 个 偶数 编码 节点 1.4， 然 后 将 新 节点 作为 1.4 
节点 的 孩子 插入 树 结构 中 ， 编 码 为 1.4.1。 


7.7 ”OrdPath 节点 编码 示例 


2 


ORDPath 编码 在 保留 前 绥 编 码 优异 的 节点 关系 结构 判断 能 力 的 基础 上 ,能 够 在 插入 新 节点 时 
无 需 改动 已 编码 节点 。 但 其 缺点 是 对 同 路 径 重 名 节点 支持 不 够 ， 并 且 容易 导致 XML 结构 树 的 深 
度 随 着 插入 节点 而 变 的 非常 大 。 


7.3.4 云 计 算 和 HBase 


1. 云 计 算 与 Hadoop 


随 着 互联 网 技术 的 飞速 发 展 ， 特 别 是 面向 分 布 式 和 大 数据 的 新 模式 的 出 现 ， 云 计算 作为 一 种 

新 兴 的 技术 越 来 越 被 科研 和 企业 界 所 重视 。2010 年 9 月 ， 卡 耐 基 梅 隆 大 学 软件 工程 研究 所 大 系统 
(System of Systems) 研究 小 组 的 Grace Lewis 以 白皮书 的 形式 给 出 了 云 计算 的 定义 : 云 计 算是 一 

种 采用 虚拟 化 、 面 向 服务 的 计算 和 网 格 计算 等 已 有 技术 的 大 规模 分 布 式 计算 范 型 ， 为 获取 和 管理 
大 规模 IT 资源 提供 一 种 不 同 的 方式 。 

目前 ， 包 括 Google、IBM、 微 软 和 Amazon 等 公司 都 在 大 力 发 展 云 计 算 技 术 ， 分 别 在 基础 平 
台 即 服务 〈Infrastructure as a Service，IaaS)， 平 台 即 服务 〈Platform as a Service，Paas) 和 软件 即 
服务 (Software as a Service，SaaS) 等 不 同 服务 模式 上 提出 了 优秀 的 产品 。 

Hadoop 是 Apache 开源 组 织 的 一 个 分 布 式 计算 框架 ， 可 以 在 大 量 廉 价 的 硬件 设备 组 成 的 集群 
上 运行 应 用 程序 ， 为 应 用 程序 提供 了 一 组 稳定 可 靠 的 接口 ， 则 在 构建 一 个 具有 高 可 靠 性 和 良好 扩 
展 性 的 分 布 式 系统 。 随 着 云 计 算 技术 的 逐渐 流行 与 普及 , 该 项 目 被 越 来 越 多 的 个 人 和 企业 所 运用 。 
Hadoop 项 目的 核心 是 HDFS、MapReduce 和 HBase， 它 们 分 别 是 Google 云 计算 核心 技术 GFS、 
MapReduce 和 Bigtable 的 开源 实现 。 其 系统 环境 图 如 图 7.8 所 示 。 





Hadoop 的 系统 环境 


ETL Tools BI Reporting 





-一 一 一 











Pig (Data Flow) | Hive (SQL) | | Sqoop 











| MapReduce (Job Scheduling / Execution System) 
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Avro (Serialization) 











Zookeeper (Coordination) 


HDFS (Hadoop Distributed File System) 




















图 7.8 ”Hadoop 的 系统 环境 图 
Hadoop 的 核心 组 件 有 以 下 3 个 。 
(1) HDFS (Hadoop 分 布 式 文件 系统 ) 
HDFS 在 整个 Hadoop 体系 结构 中 处 于 最 基础 的 地 位 ，HDFS 分 为 三 个 部 分 : 客户 端 、 主 控 节 


272 


第 7 章 采用 HBase 实现 海量 小 型 XML 文档 的 存储 与 检索 





点 (Namenode) 和 数据 节点 (Datanode)。Namenode 是 分 布 式 文件 系统 的 管理 者 ， 主 要 负责 文件 
系统 的 命名 空间 、 集群 的 配置 信息 和 数据 块 的 复制 信息 等 , 并 将 文件 系统 的 元 数据 存储 在 内 存 中 ; 
Datanode 是 文件 实际 存储 的 位 置 ， 它 将 数据 块 (Block) 信息 存储 在 本 地 文件 系统 中 ,并 且 通 过 周 
期 性 的 心跳 报 文 将 所 有 数据 块 信息 发 送 给 Namenode。HDFS 采用 master/slave 架构 。 一 个 HDFS 
集群 由 一 个 Namenode 和 一 定数 目的 Datanodes 组 成 。Namenode 是 一 个 中 心服 务 器 ， 负 责 管 理 文 
件 系统 的 名 称 空间 (namespace) 以 及 客户 端 对 文件 的 访问 。 集 群 中 的 Datanode 一 般 是 一 个 节点 
一 个 ， 负 责 管理 它 所 在 节点 上 的 存储 。 


(2) MapReduce 

为 了 解决 处 理 海量 原始 数据 的 复杂 问题 Google 设计 了 一 个 新 的 抽象 模型 MapReduce， 使 用 
这 个 抽象 模型 ， 程 序 员 只 要 表述 他 想 要 执行 的 简单 运算 即 可 ， 而 不 必 关 心 并 行 计算 、 容 错 、 数 据 
分 布 、 负 载 均 衡 等 复杂 的 细节 。 

与 传统 的 分 布 式 程序 设计 相 比 ，MapReduce 封装 了 并 行 处 理 、 容 错 处 理 、 本 地 化 计算 、 负 载 
均衡 等 细节 ， 还 提供 了 简单 而 强大 的 接口 。 通 过 这 个 接口 ， 可 以 把 大 数据 量 的 计算 自动 地 并 发 和 
分 布 执行 ， 使 之 变 得 非常 容易 。 另 外 ，MapReduce 也 具有 较 好 的 通用 性 ， 大 量 不 同 的 问题 都 可 以 
简单 地 通过 MapReduce 来 解决 。 海 量 数据 的 运算 大 多 数 都 包含 这 样 的 操作 : 在 输入 数据 的 “逻辑 ” 
记录 上 应 用 Map 操作 得 出 一 个 中 间 key/value 集合 ， 然 后 在 所 有 具有 相同 key 值 的 value 值 上 应 
用 Reduce 操作 ， 从 而 达到 合并 中 间 的 数据 , 得 到 一 个 想 要 的 结果 的 目的 。 使 用 MapReduce 模型 ， 
再 结合 用 户 实现 的 Map 和 Reduce 函数 ， 就 可 以 非常 容易 地 现 大 规模 并 行 化 计算 ， MapReduce 模 
型 自 带 的 “再 次 执行 ”(re-execution) 功能 ， 也 提供 了 初级 的 容 灾 方 案 。 

MapReduce 的 运行 模型 如 图 7.9 所 示 。 

原始 数据 Map 任 务 Reduce 任 务 输出 结果 


-----------------------] 
Reduce 一 一 > 输出 文件 |! 
| 
1 





7.9 MapReduce 的 运行 模型 


(3) HBase 

HBase 即 Hadoop Database， 是 一 个 构建 在 HDFS 上 ， 面 向 列 的 开源 分 布 式 数据 库 系 统 ， 是 
Google Bigtable 的 开源 实现 。HBase 适用 于 对 超大 规模 数据 集 的 实时 随机 读 写 。 它 的 设计 初衷 就 
是 在 廉价 的 商用 硬件 集群 上 处 理 一 些 超大 数据 表 ， 这 些 表 的 规模 通常 达到 数 十 亿 行 和 数 百 万 列 。 
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HBase 并 不 是 关系 数据 库 ， 它 并 不 支持 SQL，HBase 提供 了 一 组 简单 的 API 接口 ， 用 于 存 取 和 管 
理 数据 。 


2. HBase 数据 库 


HBase 是 一 个 NoSQL 数据 库 。NoSQL 有 时 也 被 认为 是 Not Only SQL 的 简写 ， 是 对 不 同 于 传 
统 的 关系 型 数据 库 的 数据 库 管 理 系统 的 统称 。 NoSQL 是 非 关 系 型 数据 存储 的 广义 定义 。 它 打破 了 
长 久 以 来 关系 型 数据 库 与 ACID 理论 大 一 统 的 局 面 。NoSQL 数据 存储 不 需要 固定 的 表 结 构 , 通常 
也 不 存在 连接 操作 。 在 大 数据 存 取 上 具备 关系 型 数据 库 无 法 比拟 的 性 能 优势 。 

按照 CAP 理论 ，HBase 的 设计 目标 是 高 可 扩展 性 和 强 一 致 性 ，HBase 确保 分 布 在 网 络 不 同 节 
点 上 数据 的 一 致 性 ， 因 此 降低 了 对 可 用 性 的 要 求 。CAP 理论 最 早 是 由 UC Berkeley 大 学 的 Eric 
Brewer 提出 的 。CAP 理论 指出 ， 一 个 分 布 式 系统 最 多 只 能 满足 以 下 三 种 需求 中 的 两 种 。 


@ 一 致 性 (Consistency ) : 指 分 布 式 系统 中 一 个 数据 在 多 个 节点 的 备份 都 是 相同 的 ， 即 某 一 
数据 在 集群 中 不 同 节点 中 内 容 一 致 。 

@ 可 用 性 (Availability ) : 每 一 个 操作 无 论 是 请 求 失败 或 成 功 ， 总 是 能 够 在 确定 的 时 间 内 得 
到 响应 。 

@ 分 区 容忍 性 (Partition Tolerance ) : 在 出 现 网 络 分 区 (例如 断 网 ) 等 情况 时 ， 系 统 中 任意 
信息 的 丢失 不 会 影响 系统 的 继续 运行 (除非 整个 网 络 都 出 现 故障 ) 。 


这 个 定理 使 得 数据 库 架 构 师 在 设计 数据 库 系 统 时 ， 无 需 再 去 费 尽 心机 地 尝试 使 系统 同时 满足 
- 致 性 、 可 用 性 和 分 区 容忍 性 这 三 种 需求 ， 而 可 以 集中 精力 按照 系统 的 需求 ， 设 计 合适 的 系统 架 
构 来 满足 这 三 者 中 的 两 个 。 

HBase 部 署 在 Hadoop HDFS 上 ， 使 用 Master-Slave 架构 。Master 节点 负责 与 Client 端 交互 ， 
完成 数据 Region 的 分 配 ， 并 将 用 户 的 数据 访问 请 求 转 到 具体 的 存储 节点 上 。RegionServer 作为 从 
属 节 点 ， 负 责 存储 具体 的 数据 ， 一 个 RegionServer 会 管理 多 块 Region 数据 。HBase 的 集群 管理 通 
过 Zookeeper 实现 。 


3. HBase 过 滤器 介绍 


关系 数据 库 的 SQL 语句 提供 了 丰富 的 查询 条 件 ， 方 便 用 户 对 表 中 的 数据 进行 过 滤 。HBase 作 
为 分 布 式 数据 库 ， 也 提供 了 对 数据 进行 过 滤 的 功能 。HBase 的 Scan 和 Get 操作 都 能 够 获取 指定 行 
关键 字 的 数据 ， 甚 至 可 以 获取 特定 行 、 特 定 列 和 特定 时 间 范 围 的 数据 ，HBase 完成 以 上 功能 是 通 
过 过 滤器 完成 的 。HBase 提供 了 一 个 过 滤器 结构 类 Filter， 并 预先 实现 了 多 个 常用 的 过 滤器 。 用 户 
需要 对 数据 进行 过 滤 时 ， 可 以 选择 适当 的 过 滤器 对 数据 进行 过 滤 ， 用 户 也 可 以 通过 实现 FilterBase 
类 构建 自 定义 过 滤器 ， 这 使 得 HBase 的 过 滤 功 能 具有 很 高 的 灵活 性 。 


7.3.5 JavaCC 工具 介绍 
JavaCC (Java Compiler Compiler) 是 一 个 用 Java 开发 的 最 受 欢 迎 的 语法 分 析 生 成 器 。 这 个 分 
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析 生 成 器 工具 可 以 读 取 上 下 文 无 关 且 有 着 特殊 意义 的 语法 并 把 它 转 换 成 可 以 识别 且 匹 配 该 语法 的 
Java 程序 。JavaCC 可 以 在 Java 虚拟 机 (JVM) V1.2 或 更 高 的 版 本 上 使 用 ， 它 是 100% 的 纯 Java 
代码 ,可 以 在 多 种 平台 上 运行 , 与 Sun 当时 推出 Java 的 口号 “Write Once Run Anywhere” 相 一 致 。 
JavaCC 还 提供 JJTree 工具 来 帮助 我 们 建立 语法 树 ，JJDoc 工具 为 源 文件 生成 BNF 范式 〈 巴 科斯 - 
诺尔 范式 ) 文档 (Html)。 

下 面 是 JavaCC 的 一 些 具体 特点 : 


@ JavaCC 产生 自 顶 向 下 的 语法 分 析 器 ， 而 YACC 等 工具 则 产生 的 是 自 底 向 上 的 语法 分 析 
器 。 采 用 自 顶 向 下 的 分 析 方法 允许 更 通用 的 语法 ( 但 是 包含 左 递归 的 语法 除外 ) 。 自 顶 向 
下 的 语法 分 析 器 还 有 其 他 的 一 些 优 点 ， 比 如 易于 调试 、 可 以 分 析 语 法 中 的 任何 非 终 结 符 、 
可 以 在 语法 分 析 的 过 程 中 在 语法 分 析 树 中 上 下 传 值 等 。 

@ 词法 规范 ( 如 正则 表达 式 、 字 符 串 等 ) 和 语法 规范 (BNF 范式 ) 书写 在 同一 个 文件 里 。 
这 使 得 语法 易 读 和 易 维护 。 

@ 默认 情况 下 , JavaCC 产生 的 是 LL(1) 的 语法 分 析 器 ,然而 有 许多 语法 不 是 LL(1) 的 . JavaCC 
提供 了 根据 语法 和 语义 向 前 看 的 能 力 来 解决 在 一 些 局 部 的 移 进 - 归 约 的 二 义 性 。 例 如 ， 一 
个 LL(k) 的 语法 分 析 器 只 在 这 些 有 移 进 - 归 约 冲突 的 地 方 保持 LL(k)， 而 在 其 他 地 方 为 了 更 
好 的 效率 而 保持 LL(1)。 移 进 - 归 约 和 归 约 - 归 约 冲突 不 是 自 顶 向 下 语法 分 析 器 的 问题 。 

e@ javaCC 提供 了 多 种 不 同 的 选项 供用 户 自 定义 JavaCC 的 行为 和 它 所 产生 的 语法 分 析 器 的 
行为 。 

@ JavaCC 提供 的 JJTree 工具 ， 是 一 个 强 有 力 的 语法 树 构造 的 预 处 理 程序 。 

e JavaCC 允许 拓展 的 BNF 范式 一 例如 (Aj*、(A)+ 等 。 拓 展 的 BNF 范式 在 某 种 程度 上 解 
决 了 左 递归 。 事 实 上 ， 拓 展 的 BNF 范式 写成 A ::=y(x)* 或 A::=Axly 更 容易 阅读 。 





详细 设计 与 实现 


前 面 已 经 进行 了 平台 的 需求 分 析 描述 ， 并 给 出 了 系统 总 体 架构 ， 现 在 开始 介绍 平台 的 具体 设 
计 和 实现 。 海 量 XML 文档 存储 和 检索 平台 的 核心 功能 是 以 HBase 数据 库 为 存储 介质 对 海量 XML 
文档 进行 存储 ， 以 XQuery 为 前 端 查询 语言 对 存储 在 HBase 中 的 XML 数据 进行 检索 ， 对 系统 的 
用 户 进行 管理 和 权限 控制 。 图 7.10 为 抽象 出 的 核心 模块 设计 图 。 
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图 7.10 平台 核心 模块 


从 图 7.10 可 以 看 出 ，XML 文档 存储 模块 用 于 将 海量 XML 文档 存储 到 HBase 中 ，XQuery 查 
询 模 块 用 于 解析 XQuery 语句 并 查询 HBase。 另 外 还 有 用 户 模块 处 理 用 户 的 登录 、 用 户 管理 等 操 
作 。 下 面 介绍 系统 的 具体 实现 。 


7.4.1 数据 存储 模块 的 详细 设计 与 实现 


由 于 XML 是 树 结构 数据 模型 ， 对 树 结构 的 查询 事实 上 有 非常 成 熟 并 且 高 效 的 算法 ， 但 由 于 
HBase 数据 模型 不 同 于 树 结构 模型 , 一些 典 型 并 且 知 名 的 算法 直接 在 HBase 上 的 检索 效率 并 不 高 ， 
因此 需要 寻求 一 种 新 的 映射 技术 。 本 小 节 提 出 了 XML2HBase 数据 映射 模型 ， 为 XML 节点 路 径 
和 HBase 中 的 键 建立 一 个 双向 的 映射 ,形成 如 图 7.10 中 的 映射 表 , 并 给 出 了 映射 所 采用 的 四 路 节 
点 编码 方案 的 编码 规则 。 


1. XML 数据 模型 


W3C 的 XML 规范 中 ， 关 于 XML 的 定义 较为 复杂 。 事 实 上 ， 相 对 于 本 项 目的 需求 ， 由 于 传 
感 器 网 络 传 给 后 端 处 理 的 数据 一 般 都 是 半 结 构 化 数据 ， 因 此 从 XML 模型 上 可 以 做 一 定 程度 的 简 
化 。 本 文 建立 的 XML 数据 模型 更 强调 图 论 上 的 树 结构 特性 ， 这 更 符合 通过 编程 接口 处 理 得 到 的 
XML 数据 。 这 是 因为 XML 的 标准 编程 模型 是 DOM 模型 ， 我 们 的 树 形 模型 类 似 于 DOM 模型 : 
把 节点 当 作对 象 ， 把 边 当 作对 象 引 用 。 

首先 需要 声明 两 个 集合 : 一 个 标签 的 有 限 字 符 集 >， 一 个 值 数据 的 无 限 字符 集 P。 由 于 标签 


276 


第 7 章 采用 HBase 实现 海量 小 型 XML 文档 的 存储 与 检索 








名 需要 符合 XML 规范 约束 ， 并 且 标 签 数 量 是 有 限 的 , 例如 具有 Schema 的 XML 文档 等 ， 因 此 
是 一 个 有 限 字符 集 。 而 值 集 则 包含 各 种 字符 自由 组 合 、 数 字 等 ， 因 此 是 一 个 无 限 字符 集 P。 

本 文 这 样 定义 一 颗 XML 树 : 

定义 7.1 一 颗 XML 树 t= {NN,E,<,4,v} 由 以 下 部 分 组 成 : 一 颗 有 向 树 {N,E}, 其 中 NN 是 这 
颗 XML 树 的 所 有 节点 的 集合 ，E c Nx N 表示 这 棵 树 所 有 的 边 ， 一 个 N 上 的 偏 序 关系 <， 这 
种 偏 序 关系 是 按照 深度 优先 遍历 的 顺序 得 到 的 ， 因 此 对 于 任意 节点 x 是 节点 的 祖先 ， 必 然 满足 
关系 X< 了 了 ; 一 个 节点 标记 函数 4 : V 一 二 ; 一 个 值 函数 vy:N 一 局。 

一 颗 XML 树 可 以 表示 为 仁 {N,E} ， 因 为 <,4,Y 等 信息 可 以 通过 上 下 文 环境 得 到 。T5,p 用 
来 表示 节点 标签 来 自 集合 并 和 数据 值 来 自 集合 P 的 XML 树 的 集合 ; 相应 的 工 ; 表示 只 有 节点 标签 
属于 集合 的 XML 树 集合 ， 例 如 没有 定义 值 函数 Y 的 XML 树 集合 。 

事实 上 ， 任 何 一 个 符合 W3C 标准 的 XML 文档 都 可 以 抽象 成 一 颗 XML 树 仁 {N,E}。 但 从 
数学 上 看 ,定义 中 给 出 的 XML 树 的 描述 仍然 不 够 精确 ， 因 为 一 颗 抽象 XML 树 能 够 转换 为 不 同形 
态 的 XML 文档 。 下 面 给 出 XML 数据 模型 的 一 些 更 准确 的 定义 。 


(1) 集合 入 可 以 分 为 四 个 不 相交 的 集合 ， 即 入 = {4}U Elmt J Attr Txt， 其 中 : 





4 是 XML 树 ! 的 根 节 点 ， 叫 做 文档 节点 。 
Elmt 是 所 有 元 素 节点 的 集合 。 

Attr 是 所 有 属性 节点 的 集合 。 

Txt 是 所 有 文本 纯 节点 的 集合 。 


(2) Attr UTxt 只 包含 所 有 的 叶子 节点 因此 如 果 存 在 (n,n )eE, 那么 ne {qd}U Elmt。 
(3) 同一 个 节点 的 属性 子 节点 出 现在 其 他 类 型 节点 的 前 面 ， 即 如 果 存 在 


(n,nm)eE,(n,n,)ekE,n eAttr,n,eElmtuJTxt, 那么 mn <n,。 


(4) 节点 标记 函数 4 : N 下 本 只 在 元 素 和 属性 节点 Elmt J Attr 上 定义 ， 在 其 他 节点 上 没 
有 定义 节点 标记 函数 。 

(5) 数据 值 函 数 v : V 一 尸 只 定义 在 属性 和 纯 文 本 节点 4ttr Txt 上 ， 其 他 节点 上 没有 数 

(6) 文档 节点 q 的 所 有 子 节点 都 是 元 素 节 点 Elmt ， 即 如 果 (4d,n)e EE ， 那 么 ne Elmt。 


2. HBase 数据 模型 


HBase 中 的 数据 存储 在 表 〈Table) 中 ， 表 则 由 行 (Row) 和 列 〈Column) 构成 。 表 中 的 任何 
一 个 列 都 归属 于 一 个 特定 的 列 族 (Column Family)。 行 和 列 的 交叉 点 ， 构 成 表 的 单元 格 (Cell)， 
单元 格 是 有 版 本 号 的 (versioned)， 默 认 情 况 下 ， 版 本 号 是 HBase 自动 分 配 的 ， 即 插入 单元 格 时 
的 时 间 戳 Time Stamp)。 单 元 格 中 的 数据 是 没有 类 型 的 ， 直 接 以 字 节 数组 形式 存储 。 
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实战 大 数据 
HBase 的 数据 被 建 模 成 一 个 四 维 的 映射 ， 表 中 的 单元 格 数据 可 以 由 以 下 索引 唯一 定位 : 
( 表 名 : string, 行 关键 字 : string， 列 关键 字 : string， 时 间 惟 : int64) -~ 数据 值 : string 


其 中 ， 表 名 (Table Name) 是 一 个 字符 串 ， 唯 一 标识 一 张 表 ; 行 关键 字 (Row Key) 一 般 指 
定 为 一 个 字符 串 , 唯一 标识 该 行 , 表 中 的 行 通过 行 关键 字 按 照 字典 序 排列 ; 列 关 键 字 (Column Key) 
的 构成 格式 为 “ 列 族 名 :标签 ”， 列 族 可 以 理解 为 对 列 的 分 类 ， 在 该 分 类 下 通过 标签 确定 一 个 具体 
的 列 ,例如 列 关键 字 school:class 可 以 表示 学 院 列 族 中 的 班级 列 ， 每 个 列 族 都 可 以 划分 任意 数量 的 
标签 。 

表 7.5 显示 了 HBase 数据 存储 的 逻辑 模型 ， 事 实 上 这 是 一 个 稀 玻 的 表 。 一 个 表 的 列 族 作为 表 
模式 的 一 部 分 ， 需 要 在 定义 表 时 预先 给 出 。 一 旦 设 定 了 表 的 模式 和 列 族 ， 在 后 期 使 用 中 可 以 随时 
在 列 族 中 增加 新 的 成 员 ， 即 列 族 的 数量 是 无 需 预 先 定义 的 ， 在 使 用 中 可 以 动态 扩展 。 例 如 表 7.5 
中 已 经 定义 了 列 族 Info， 当 客户 端 在 更 新 时 提供 了 新 的 列 Info:content， 那么 HBase 会 在 mfo 中 增 
加 新 的 列 来 存储 它 的 值 。 

在 物理 上 ，HBase 表 都 是 按照 列 来 存储 的 。 因 此 ， 空 白 单元 格 并 不 会 存储 在 列 中 。HBase 会 
自动 将 表 水 平地 划分 为 区 域 (Region), 每 个 Region 都 是 由 表 中 行 的 子 集 构成 的 。Region 是 HBase 
集群 分 布 数据 的 最 小 单位 ， 当 一 个 表 太 大 时 会 分 割 成 多 个 Region 分 布 在 服务 器 集群 上 , 集群 中 每 
个 节点 负责 管理 表 的 一 部 分 Region， 因 此 HBase 集群 中 的 从 属 节 点 叫做 RegionServer。 


表 7.5 HBase 中 的 表 


Column Family 


Row Key Time Stamp 
Info 


Infoxtitle = “Xidian Univ.” 


rowl t4 Info:content = “<html...” 
G3 
2 

row2 














Info:title = “Xidian news” 


在 HBase 中 ,文件 的 存储 是 通过 HFile 类 来 实现 的 ，HFile 也 是 HBase 的 文件 格式 。HFile 文 
件 中 存储 的 是 有 序 的 Key/Value 键 值 对 ， 其 中 所 有 Key 和 Value 都 是 字 节 数组 格式 的 。HFile 文件 
的 结构 组 织 是 基于 Block 的 ， 文 件 中 存储 着 一 到 多 块 数据 块 (Data Block)， 此 外 还 有 零 到 多 块 元 
数据 块 (Meta Block)、 一 个 FileInfo 数据 块 、 一 个 数据 块 索引 (Data Block Index) 块 、 一 个 元 数 
据 块 索引 (IMeta Block Index) 块 以 及 一 个 尾 指针 〈Trailer) 块 。 

如 图 7.11 为 HBase 的 存储 模型 ， 其 中 键 值 对 部 分 为 HBase 在 实际 存储 中 的 数据 模型 ， 正 如 
前 面 给 出 的 四 维 映射 。 因 此 ， 可 形式 化 地 定义 HBase 的 数据 模型 : 

定义 7.2 对 于 一 个 HBase 表 T, 其 内 容 为 五 元 组 T={ 久 ,VV,K,yY,0} 。 其 中 K 表示 所 有 键 集合 ， 
V 表示 所 有 值 集合 ，K 表示 键 名 函数 KK -> 并 ，7X 表示 值 函 数 V -> P ，0 表示 键 到 值 的 函数 
K—>V.。 
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tg 
图 7.11 HBase 数据 存储 模型 


事实 上 , 一 个 HBase 表 的 键 集合 是 一 个 有 限 字符 集 ， 这 里 命名 为 ， 而 值 集合 是 一 个 无 限 集 
合 ， 命 名 为 P  。 由 于 键 集合 由 HBase 规定 的 行 、 列 和 时 间 戳 组 成 ， 在 HBase 中 行 名 、 列 名 和 时 
间 戳 的 命名 都 是 有 限 集合 , 因此 二 是 一 个 有 限 字 符 集 。 而 值 集 则 包含 各 种 字符 自由 组 合 、 数 字 等 ， 
因此 是 一 个 无 限 字符 集 。 

定义 7.3 对 于 一 个 HBase 表 T, 其 键 集合 中 的 键 k e K 都 是 由 一 个 四 元 组 构成 : k={rc,q,t} 。 
其 中 r 表示 行 关键 字 ，c 表示 列 族 名 ，q 表示 列 标签 名 ，t 表示 时 间 戳 。 

由 定义 7.2 可 以 推出 ， 对 于 HBase 的 表 T， 其 一 个 任意 键 k e K ， 通 过 键 值 映射 函数 0 可 以 
找到 一 个 值 ve V 。 即 : 





v=L(k) 式 (7-1) 


3. XML2HBase 模型 映射 机 制 


在 建立 了 XML 和 HBase 的 数据 模型 后 , 尝试 给 出 XML2HBase 的 映射 规则 。 首 先 应 该 明确 ， 
数据 映射 是 存在 于 XML 文档 和 HBase 数据 库 之 间 的 一 种 转换 规则 ， 通 过 XML2HBase 模型 映射 
机 制 ， 能 够 得 到 一 个 双向 的 映射 表 ， 这 个 映射 表 能 通过 XML 文档 的 节点 路 径 得 到 该 节点 路 径 对 
应 的 HBase 的 列 名 ， 也 能 通过 列 名 查找 到 该 节点 在 XML 文档 中 的 路 径 。 
事实 上 , 通过 XML 文档 路 径 进 行 映射 的 技术 叫做 节点 编码 技术 ,在 第 二 章 中 已 经 介绍 过 了 ， 
由 于 本 项 目的 设计 目标 中 ， 对 于 输入 数据 的 定义 是 模式 无 关 的 XML 文档 ， 因 此 需要 对 现 有 的 节 
点 编码 技术 进行 一 些 改进 。 

XML 文档 的 文档 节点 d 作为 XML 文档 树 结构 的 根 节点 ,是 唯一 判定 一 个 XML 文档 的 标识 ， 
因此 ， 这 里 将 具有 相同 文档 节点 的 XML 文档 定义 为 同一 类 文档 。 即 这 类 XML 具有 相似 的 结构 ， 
描述 着 类 似 的 内 容 , 例如 在 物 联网 中 描述 地 理 环境 参数 的 文档 , 都 以 <geography> 标 签 作为 根 节点 ， 
而 这 一 类 XML 文档 将 放 在 HBase 中 以 geography 为 名 的 表 中 。 此 外 , 由 于 要 处 理 模式 无 关 的 XML 
文档 ， 因 此 HBase 需要 具有 灵活 的 模式 ， 方 便 插 入 操作 ， 因 此 一 个 HBase 表 具 有 唯一 的 列 族 ， 这 
个 列 族 也 以 文档 节点 命名 。 

定义 7.4 对 于 文档 节点 为 q 的 XML 文档 和 HBase 中 的 表 和 列 族 ， 具 有 以 下 映射 : 
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实战 大 数据 
x(1)=4(d) 式 (72) 
Kx(c)= 4(q) 式 (73) 


式 (7-2) 和 式 (7-3) 中 的 Kk 是 HBase 表 中 的 键 的 名 称 的 映射 函数 。 多 则 是 XML 节点 的 名 
称 映射 函数 。 根 据 XML2HBase 映射 机 制 ，XML 文档 到 HBase 的 映射 主要 需要 完成 的 映射 如 定 


义 7.5 所 示 。 
定义 7.5 € 是 XML 文档 中 的 一 个 元 素 节点 的 路 径 表 达 式 ,那么 e 和 HBase 中 的 键 具有 如 下 
映射 关系 : 
hl(e)=K,, eeE,K。.cK 式 (74) 
h(k)=e, eeE,keKk 式 5 


式 (7-4) 中 的 有 是 XML 文件 中 的 节点 路 径 到 HBase 中 一 组 关键 字 集 合 的 映射 函数 ， 由 于 
XML 的 路 径 表 达 式 得 到 的 节点 并 不 唯一 ， 例 如 路 径 表 达 式 /bookstore/book 的 book 标签 可 能 有 多 
个 因此 HBase 中 也 对 应 着 多 个 列 。 值得 注意 的 是 ， 路径 表 达 式 事实 上 是 和 HBase 中 的 列 对 应 的 ， 
因此 关键 字 集合 天 。 并 不 用 特别 指明 行 关 键 字 r， 尽 管 对 于 单个 XML 文档 来 说 r 是 确定 的 。 此 处 
给 出 XML 文件 到 HBase 表 中 键 的 行 关键 字 的 映射 关系 。 

式 (7-5) 则 是 HBase 中 表 的 一 个 键 大 到 XML 的 元 素 路 径 的 映射 函数 用， 由 于 HBase 的 一 个 
键 只 包含 一 个 列 ， 因 此 对 应 唯一 一 个 XML 元 素 。 


4. 四 路 节点 编码 方案 


为 了 完成 XML 节点 到 HBase 列 的 双向 映射 ， 这 里 提出 一 种 基于 路 径 类 索引 技术 的 节点 编码 
方案 。 相 比 OrdPath 编码 方案 ， 四 路 节点 编码 方案 具有 更 高 的 灵活 性 ， 能 够 适应 元 素 动态 插入 和 
同名 节点 的 扩展 。 

模式 无 关 的 XML 存储 方式 主要 难点 在 于 应 对 新 增 节点 的 问题 ， 新 增 节点 主要 包括 两 类 : 

类 是 原本 没有 出 现 过 的 路 径 节 点 ， 如 图 7.12(b) 中 的 ISBN 节点 ， 在 图 7.12(a) 中 没有 出 现 过 ， 需 要 
插入 到 title 和 author 节点 中 间 ; 第 二 类 则 是 新 增 的 同名 节点 ， 由 于 同名 节点 可 以 出 现任 意 多 次 ， 
节点 出 现 次 数 不 固 定 ， 且 没有 上 限 ， 因 此 需要 使 用 同名 节点 的 动态 扩充 。 

OrdPath 编码 方式 考虑 了 第 一 类 新 增 节 点 情况 ， 但 并 没有 考虑 第 二 类 新 增 节点 情况 ， 而 四 路 
节点 编码 方式 则 在 OrdPath 的 基础 上 进行 扩展 ， 并 支持 第 二 类 新 增 节点 的 处 理 。 


(%) Ce Ce Ce) 


Qa 
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图 7.12 XML 结构 示例 
四 路 节点 编码 方式 可 以 通过 以 下 规则 描述 : 


e@ XML 文档 的 文档 节点 作为 根 节点 ， 编 码 为 1。 
日 每 个 节点 具有 一 个 当前 层 节点 编号 $6。 具 有 相同 父 节点 的 节点 ， 其 当前 层 节 点 编号 不 同 ， 


名 ， 且 : 
3.= 4p+1 式 (7-6) 


除根 节点 以 外 的 所 有 节点 I, 其 节点 编码 采用 其 父 节 点 的 编码 作为 前 级 , 并 加 上 工 节点 的 当前 
层 编号 ， 中 间 以 分 隔 符 “.” 隔 开 ， 因 此 节点 工 的 编码 
Ss mn 5 式 (7-7) 
@ 元 素 的 属性 节点 当 作 元 素 的 子 节点 处 理 ， 并 且 属性 节点 位 于 所 有 其 他 子 节点 之 前 ， 属 性 节 
点 的 命名 规则 是 在 原名 称 前 加 “@” 符 号 。 
@ ”如果 遍历 到 一 个 路 径 已 经 出 现 过 的 节点 I[， 如 图 7.12(a) 中 最 右边 的 chapter 节点 ， 已 存在 
相同 路 径 节 点 A， 则 判断 当前 层 编号 比 A 节点 小 1 的 节点 是 否 存 在 ， 如 果 不 存 在 ， 则 新 
建 一 个 虚拟 节点 B， 令 其 当前 层 编号 为 ， 并 将 工 节点 放 在 B 节点 下 一 层 ; 如 果 已 存在 B 
节点 ， 则 按照 前 面 的 规则 ， 将 工 节点 放 在 B 节点 下 一 层 的 最 右边 。 
站 一 < - et, 2 2 = 5 式 (7) 
@ 当 处 理 一 个 新 XML 文档 时 ， 先 序 遍历 这 个 XML 文档 中 的 节点 ， 如 果 发 现 新 的 没 出 现 过 
的 节点 I， 且 这 个 节点 出 现在 已 编码 的 两 个 节点 A 和 B 之 间 ， 且 A 节点 的 当前 层 编号 为 ， 
B 节点 的 当前 层 编 号 为 ， 则 工 节点 的 当前 层 编号 为 。 
Su = 和 十 了) 3 = Sra + 
(Sca + 1)lastQ, Sis =5m+1 
即 在 A 节点 和 B 节点 之 间 创 建 一 个 虚拟 节点 V, 并 将 工 节点 作为 V 节点 的 第 一 个 子 节点 , 如 
果 V 节点 已 存在 ， 则 将 1 放 在 V 节点 的 最 后 。 
根据 上 述 规则 ， 图 7.12(b) 在 使 用 四 路 节点 编码 方案 后 如 图 7.13 所 示 。 


式 (7-9) 
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图 7.13 ”四 路 节点 编码 方案 示例 


节点 12 和 1.9 都 是 虚拟 节点 , 虚拟 节点 本 身 并 不 代表 任何 路 径 , 而 该 节点 的 所 有 孩子 节点 在 
逻辑 上 都 是 和 虚拟 节点 在 同一 层 的 ， 在 处 理 检 索 的 时 候 应 该 将 虚拟 节点 的 所 有 孩子 节点 向 上 提 到 


虚拟 节点 所 在 层 来 对 待 。 
四 路 节点 编码 方案 最 后 会 产生 一 个 映射 表 , 是 XML 路 径 到 HBase 列 的 双向 映射 ,根据 图 7.13 
会 产生 如 表 7.6 所 示 的 映射 表 。 
表 7.6 图 7.13 产生 的 映射 表 
TE 


/Book/Chapter Book:1.9.1 
Book:1.9.5 
Book:1.13 
/Book/Chapter/@Id Book:1.9.1 
Book:1.9.5 
Book:1.13 





到 
Ra 
Toon 
ET 
ET 








该 映射 表 可 以 采用 HashMap 的 形式 保存 在 内 存 中 ， 构 成 节点 路 径 索引 ， 当 查询 XML 路 径 时 


可 以 迅速 得 到 对 应 的 HBase 列 ， 反 之 亦 然 。 


根据 上 述 规则 ， 可 以 得 到 一 个 规律 ， 即 任何 编码 的 最 结尾 S 是 4n+1 的 节点 都 是 原始 元 素 节 
点 ， 而 以 4n+2 结尾 的 都 是 新 添加 的 节点 ， 以 4n 结尾 的 都 是 和 4n+1 节点 相同 路 径 的 节点 。 此 处 


4n+3 结尾 的 节点 编号 并 没有 使 用 ， 因 为 目前 的 编码 规则 已 经 可 以 满足 项 目 需 求 ， 
的 节点 编号 留 下 来 作为 以 后 可 能 出 现 的 扩展 情况 使 用 。 
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因此 4n+3 结尾 
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5. 数据 存储 模块 的 实现 


数据 存储 模块 是 整个 系统 的 数据 入 口 ,首先 读 取 指定 的 XML 文件 , 并 抽取 XML 结构 与 现 有 
映射 表 进行 合并 ， 最 后 把 抽取 的 数据 存储 到 HBase 数据 库 中 。 在 整个 物 联网 系统 中 ， 传 感 器 传 回 
来 的 数据 会 放 在 一 个 特定 的 上 传 目录 中 , 数据 存储 模块 需要 定时 扫描 这 个 目录 , 将 新 产生 的 XML 
文档 读 取 并 解析 存储 在 数据 库 中 。 

如 图 7.14 所 示 为 系统 物理 环境 图 ， 数 据 接收 服务 器 接收 来 自 物 联网 络 的 XML 数据 ， 并 存放 
在 特定 位 置 ， 定 时 将 新 产生 的 XML 文档 打包 上 传 到 云端 服务 器 集群 ， 而 基于 HBase 数据 库 的 海 
量 XML 数据 存储 和 检索 平台 则 部 署 在 云端 服务 器 集群 上 。 因 此 ， 从 整个 数据 存储 模块 来 看 ， 需 
要 向 外 提供 用 来 上 传 XML 文档 的 接口 。 








物 联网 传感器 网 络 
7.14 系统 物理 环境 图 


(1) XML 结构 抽取 

XML 数据 上 传 到 HDFS 服务 器 后 ， 会 根据 XML 文件 的 文件 节点 首先 对 XML 进行 分 类 ， 由 
于 具有 不 同文 档 节点 的 XML 文件 在 存储 上 属于 不 同 的 HBase 表 ， 因 此 ， 将 XML 文件 按照 文档 
节点 区 分 类 别 有 利 于 后 续 处 理 。 另 外 , 按照 文档 节点 区 分 后 的 文档 可 以 使 用 MapReduce 并 行 处 理 
抽取 结构 ， 将 相同 文档 节点 的 XML 文件 Map 到 同一 个 计算 节点 上 ， 不 同文 档 节点 的 XML 文件 
之 间 不 会 相互 产生 影响 。 经 过 Map 任务 分 发 后 ， 各 个 节点 执行 结构 抽取 、 节 点 编码 和 数据 存储 ， 
最 终 将 XML 文档 存储 在 HBase 中 。 由 于 存储 任务 直接 在 各 个 计算 节点 完成 ,因此 不 需要 对 Reduce 
进行 特别 处 理 ， 此 处 使 用 一 个 Reduce 来 统计 各 个 节点 完成 的 存储 结果 信息 ， 如 图 7.15 所 示 。 





























7.15 XML 数据 存储 模块 的 MapReduce 流程 
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实战 大 数据 
XML 的 结构 抽取 事实 上 是 对 XML 文档 的 遍历 过 程 ， 无 论 采 用 DOM 或 者 是 SAX 都 可 以 完 
成 XML 的 结构 抽取 。 由 于 本 项 目 处 理 的 数据 是 海量 的 小 XML 文档 ， 因 此 使 用 DOM 即 可 , 不 必 
担心 由 于 读 取 大 XML 文件 导致 内 存 不 足 等 问题 。 
(2) XML 节点 编码 
XML 经 过 DOM 解析 成 树 结构 ， 就 可 以 遍历 整 棵 DOM 树 来 对 文档 中 的 节点 编码 。 整 个 数据 
存储 过 程 的 流程 图 如 图 7.16 所 示 。 






获取 XML 的 
DOM 结 构 





创建 数据 数组 Data 
并 开始 遍历 DOM 树 


使 用 四 路 编码 方 
式 给 节点 编码 








将 编码 和 值 存 入 
数据 数组 Data 
将 数据 数组 Data 
写 入 HBase 


7.16 XML 文件 存储 流程 图 
首先 获取 XML 的 DOM 结构 ， 这 一 步 通过 DOM 解析 器 得 到 。 之 后 创建 一 个 数据 数组 Data， 
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这 个 数组 用 来 存储 HBase 的 列 名 以 及 其 对 应 的 值 。 一 个 XML 文件 在 HBase 表 中 存 为 一 行 数据 ， 
因此 遍历 这 颗 DOM 树 将 所 有 列 和 值 都 存在 Data 数据 中 后 , 再 一 次 性 调用 HBase 数据 存储 接口 将 
这 行 数据 存 入 HBase 中 。 

DOM 树 的 遍历 是 一 个 DFS 深度 优先 遍历 的 过 程 , 小 文件 的 特性 保证 了 DFS 的 深度 不 会 非常 
深 ， 因 此 无 需 考虑 内 存 溢出 问题 。 对 于 每 一 个 节点 而 言 ， 首 先 通过 节点 路 径 查询 映射 表 ， 看 该 节 
点 的 路 径 是 否 已 经 存在 ， 如 果 已 经 存在 ， 那 么 直接 从 映射 表 中 获取 路 径 对 应 的 列 编码 ， 如 果 节 点 
路 径 还 没有 出 现 过 ， 映 射 表 中 不 存在 这 样 的 路 径 ， 那 么 需要 先 通过 四 路 编码 方式 对 节点 路 径 进 行 
编码 ， 并 将 路 径 与 其 对 应 的 列 编码 保存 在 映射 表 中 。 之 后 将 列 编码 与 对 应 的 节点 文本 值 保存 到 
Data 数组 中 。 直 到 遍历 结束 ， 将 整个 Data 数组 写 入 到 HBase 中 的 一 行 。 

Data 数据 数组 是 一 个 二 维 数组 , 分 别 存储 着 列 编号 和 XML 节点 的 值 。 如 果 每 次 得 到 一 个 XML 
路 径 对 应 的 列 名 ， 都 把 XML 路 径 的 值 直接 存 入 HBase 的 相应 列 ， 会 导致 非常 多 的 写 入 数据 库 操 
作 ， 这 会 直接 导致 系统 写 入 性 能 降低 。 并 且 ， 处 理 完整 个 文件 再 写 入 并 不 会 导致 数据 一 致 性 问题 ， 
即使 中 途 由 于 某 种 原因 导致 系统 崩溃 ， 也 只 是 重新 解析 一 次 崩溃 前 正在 处 理 的 文件 。 

在 编码 节点 会 产生 一 个 映射 表 ， 这 个 映射 表 是 一 个 非常 重要 的 数据 结构 ， 在 后 续 处 理 新 的 
XML 文件 的 存储 或 者 数据 的 检索 中 都 作为 关键 部 分 存在 ， 能 够 辅助 快速 完成 存储 和 检索 。 

如 图 7.17 是 映射 表 的 静态 类 图 。MappingTable 是 映射 表 的 类 ， 其 成 员 变 量 是 两 个 Map 型 的 
结构 ， 其 中 p2cMap 是 从 XML 的 路 径 到 HBase 列 名 的 映射 ， 而 c2pMap 是 从 HBase 列 名 到 XML 
的 映射 。 之 前 已 经 提 到 过 ， 由 于 XML 允许 在 同一 个 节点 下 存在 名 称 相同 的 节点 ， 因 此 一 个 XML 
路 径 可 能 对 应 着 多 个 HBase 中 的 列 ， 因 此 p2cMap 是 一 个 从 String 型 到 List<String> 型 的 一 对 多 的 
映射 。 列 名 到 XML 路 径 是 一 对 一 的 ， 因 此 c2pMap 是 一 对 一 映射 。MappingTableManager 是 对 
MappingTable 的 封装 ， 由 于 系统 需要 同时 处 理 一 些 具有 不 同文 档 节点 的 XML 文档 ， 因 此 内 存 中 
需要 保存 着 多 个 MappingTable 的 实例 。MappingTableManager 中 的 成 员 变量 就 是 一 个 String 到 
MappingTable 的 映射 ， 可 以 通过 文档 节点 查询 映射 表 是 否 存在 ， 并 提供 获取 或 删除 指定 的 
MappingTable 的 成 员 函 数 。 


MappingTable 


-p2cMap: Map<String, List<String>> 
-C2pMap: Map<String, String> 





MappingTableManager 


-mapList: Map<String, MappingTable> 
+get Mapping Table(String): MappingTable 
+del MappintTable(String): void 
+iSExists(String): Boolean 


+getP2CMap(): Map<String, List<String>> 
+getC2PMap(): Map<String, String> 
+getPath(String): String 

+getCode(String): String 

+addPair(String, String): void 








图 7.17 映射 表 的 静态 类 图 


在 节点 编码 流程 中 ， 最 重要 的 一 步 是 按照 四 路 编码 方式 确定 一 个 XML 路 径 对 应 的 HBase 列 
编码 。 
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算法 4-1 是 XML 文档 的 编码 算法 。DecodePath() 函 数 的 输入 是 一 个 DOM 节点 类 型 的 当前 节 
点 ptrNode, 一 个 String 类 型 的 当前 节点 的 编号 , 还 有 目前 该 文档 节点 对 应 的 映射 表 。 该 编码 算法 
的 主要 功能 是 将 一 个 新 输入 的 XML 文档 按照 其 结构 , 给 XML 的 所 有 节点 进行 编码 , 如 果 有 新 加 
入 的 节点 ， 则 同时 按照 四 路 编码 方式 给 新 加 入 的 节点 编码 ， 并 用 新 的 编码 更 新 映射 表 。 

由 于 四 路 编码 算法 要 求知 道 当前 节点 是 相同 父 节 点 的 所 有 节点 中 的 第 几 个 ， 因 此 ， 
DecodePath0 中 由 辅助 数据 结构 和 函数 来 完成 节点 次 序 相 关 的 记录 和 查询 工作 。nameMap 是 一 个 
HashMap， 在 遍历 ptrNode 的 孩子 节点 时 ， 用 来 统计 当前 被 遍历 到 的 节点 是 同名 节点 的 第 几 个 ; 
第 9 行 中 的 Count0 函 数 是 统计 映射 表 中 已 存在 的 同名 节点 的 数目 ; 第 20 行 的 IsLastNode() 判 断 当 
前 节点 是 否 是 映射 表 中 的 最 后 一 个 节点 等 。 此 外 ， 还 有 很 多 对 编码 进行 操作 的 函数 ， 例 如 第 10 
行 的 GetCode() 函 数 是 获取 映射 表 中 以 currCode 为 父 节点 的 并 且 路 径 为 childNode 的 第 currNum 个 
节点 的 编号 ; 第 13 行 的 ChangeLast() 函 数 是 将 传 入 的 路 径 的 最 后 一 个 数值 加 上 一 个 值 ， 例 如 
ChangeLast(“1.5.13”, -1) 得 到 的 结果 是 “1.5.12”; 21 行 的 LastNum0 函 数 式 获取 传 入 的 编号 的 最 后 

-个 数值 。 此 外 ，InsertBewteenNodes() 函 数 是 将 当前 节点 插入 到 两 个 节点 中 间 ， 并 返回 插入 后 所 
在 位 置 的 编码 ， 事 实 上 这 就 是 四 路 编码 中 新 节点 插入 两 个 节点 之 间 的 函数 。 这 些 方 法 的 具体 实现 
限于 篇 幅 ， 不 在 此 一 一 列举 ， 不 过 由 于 都 是 查 映射 表 就 能 得 到 的 操作 ， 因 此 每 个 操作 的 最 高 时 间 
复杂 度 不 会 超过 四 路 编码 树 的 宽度 , 最 坏 情况 下, N 个 节点 的 映射 表 , 其 时 间 复 杂 度 不 超过 O(N)。 

输入 : 当前 节点 PtrNode， 当 前 节点 编号 currcode， 映 射 表 mTable 


输出 : 更 新 后 的 映射 表 mTable 
1: DecodePath(Element ptrNode, String currCode, MappingTable mTable) 


























2 BEGIN 

3 currPath ~ ptrNode 的 DOM 节点 路 径 

4: 新 建 nameMap， 类 型 为 Map<String，int>， 记 录 节 点 名 出 线 的 次 数 

Se FOR EACH childNode of ptrNode DO 

本 BEGIN 

有 IE nameMap .get (childNode .name) * 9 

外 > currNum ~ ++nameMap .get (childNode .name) 

9 IF Count (currCode, childNode, mTable) > currNum 

2 childcode ~ GetCode(currCode, childNode, currNum, mTable) 

Ee 在 多 ELSE BEGIN 

2 firstNodeCode ~ GetCode(currCode, childNode, 1, mTable) 

3 secondNodeCode ~ ChangeLast (firstNodeCode, -1) 

14: IF currNum = 2 THEN childCode = secondNodeCode + “.1” 

SR ELSE childCode ~ secondNodeCode + ‘.’ +ToString (currNum* 4-3) 

Gs END 

I END 

18; ELSE BEGIN 

19: nameMap .insert (childNode.name, 1) 

20% IF IsLastNode (childNode, currCode, mTable) THEN 

Zs childCode ~ currCode + ‘.’ + ToString (LastNum (currPath, mTable) 
+ 4) 

2 ELSE childCode -~ InsertBewteenNodes (childNode, currCode, mTable) 

23% END 

24: mTable.addPair (currPath, childCode) 

2 DecodePath (childNode, childCode, mTable) 
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对 XML 节点 编码 的 过 程 是 一 个 DFS 的 过 程 ， 算 法 4-1 的 第 5 行 循环 遍历 当前 节点 的 所 有 和 孩 
子 节点 ， 并 在 25 行 出 调用 DecodePath0 函 数 ， 将 当前 的 孩子 节点 作为 参数 传 入 下 一 层 。 因 此 ， 此 
算法 在 调用 时 ， 只 需要 传 入 DOM 解析 的 XML 文档 的 根 节点 ， 根 节点 编号 “1” 以 及 解析 XML 
文档 前 的 映射 表 即 可 。 整 个 编码 过 程 会 遍历 XML 树 结构 的 所 有 节点 ， 因 此 读 入 XML 文件 创建 映 
射 表 的 总 体 时 间 复 杂 度 约 为 。 


(3) HBase 数据 存储 
@ HBase 数据 库 表 的 设计 


数据 存储 首先 要 对 HBase 数据 库 中 的 表 进 行 设 计 。HBase 是 一 个 高 可 靠 性 的 、 高 性 能 的 、 面 
向 列 的 、 可 伸缩 的 分 布 式 存储 系统 ， 其 底层 利用 HDFS 作为 文件 存储 系统 。HBase 与 典型 的 关系 
数据 库 不 同 ， 它 采用 KeyValue 的 底层 存储 结构 ， 更 适合 存储 半 结 构 化 或 者 非 结 构 化 的 数据 。 

图 7.18 HBase 中 存储 XML 数据 的 表 模式 。 事 实 上 ， 真 正 的 表 模 式 只 有 一 个 列 族 ， 这 个 列 族 
的 名 称 就 是 XML 文档 标签 d, 而 具体 到 列 标签 ， 是 可 以 动态 扩展 的 ,但 所 有 的 列 标签 都 来 自 于 映 
射 表 中 与 XML 路 径 对 应 的 值 。 实 际 应 用 中 ， 由 于 动态 扩展 某 一 个 列 会 导致 除了 新 增加 的 行 之 外 
其 他 的 行 都 不 包含 新 增加 的 列 ， 这 在 传统 的 关系 数据 库 中 将 导致 空间 浪费 。 然 后 在 HBase 中 ， 由 
于 新 增加 的 列 只 是 在 相应 的 列 族 里 面 添加 一 个 KeyValue 键 值 对 ， 因 此 其 他 行 都 不 会 存在 这 个 空 
列 , 所 以 不 会 额外 占用 空间 , 这 就 是 面向 列 存储 的 HBase 由 于 灵活 的 模式 而 在 空间 利用 上 的 优势 。 


Column Family: 文 档 标 签 q 





[ee Tr TirT is TT 


图 7.18 数据 表 模 式 


XML 数据 表 中 的 列 标签 是 直接 通过 四 路 节点 编码 方式 得 到 的 编码 ， 而 要 通过 编码 得 到 XML 
路 径 就 必须 通过 映射 表 查 询 ， 然 而 映射 表 一 般 是 在 内 存 中 的 ， 虽 然 速度 快 ， 但 会 导致 一 些 问题 ， 
例如 宕 机 后 如 何 恢复 映射 表 。 为 了 保证 灾难 恢复 等 功能 ， 需 要 将 映射 表 也 持久 化 在 HBase 中 。 映 
射 表 主要 保存 XML 路 径 到 HBase 列 的 映射 ， 由 于 这 个 映射 表 中 从 XML 路 径 到 HBase 是 一 个 一 
对 多 的 关系 ， 正 如 /BookStore/Book/Chapter 对 应 着 “1.9.1””“1.9.5” 和 “1.13” 三 个 列 。 不 过 ,只 
要 将 一 个 XML 路 径 对 应 的 多 个 列 经 过 一 定 的 序列 化 就 可 以 存储 在 同一 个 单元 中 。 这 里 采用 以 “#” 
符号 隔 开 的 方式 序列 化 这 些 列 ， 例 如 上 面 的 三 个 列 存储 在 以 /BookStore/Book/Chapter 为 列 标签 的 
列 中 ， 其 值 为 “1.9.1#1.9.5#1.13”。 

映射 表 与 数据 表 不 同 ， 由 于 同一 个 数据 表 的 所 有 数据 都 对 应 着 一 个 映射 表 ， 因 此 一 个 数据 表 
的 映射 表 只 需要 在 HBase 中 存 一 行 就 可 以 。 这 里 的 映射 表 在 HBase 中 的 表 名 叫 MappingTable。 
MappingTable 每 行 的 行 关 键 字 是 这 行 映射 表 结 构 所 对 应 的 数据 表 的 表 名 ， 因 此 与 XML 的 文档 节 
点 名 称 相同 。 如 图 7.19 为 HBase 存储 表 的 结构 图 。 


列 族 文档 标签 q 








oemne | ram | pom 2] ~ [Pann 


图 7.19 映射 表 的 HBase 存储 表 结 构 
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由 于 结构 表 也 需要 持久 化 ， 而 持久 化 就 会 有 一 致 性 问题 ， 内 存 中 的 映射 表 和 HBase 中 的 
MappingTable 如 何 保证 一 致 性 是 一 个 关键 问题 。 如 果 采 用 强 一 致 性 模型 ， 那 么 在 每 次 内 存 中 映射 
表 变 化 后 都 会 导致 对 HBase 中 数据 的 更 新 ， 这 对 性 能 会 有 比较 大 的 影响 ， 而 如 果 采 用 弱 一 致 性 模 
型 ， 就 必须 考虑 可 能 存在 的 不 一 致 问题 。 因 此 ， 借 鉴 HBase 的 一 些 设计 思想 ， 这 里 的 系统 添加 了 

志 系 统 来 保证 结构 表 的 一 致 性 。 

结构 表 采 用 了 预 写 式 日 志 (Write-Ahead Logging，WAL)。WAL 的 核心 思想 是 对 数据 文件 的 
修改 必须 只 能 发 生 在 这 些 修改 已 经 记录 了 日 志 之 后 。 也 就 是 说 ， 如 果 需 要 写 入 数据 到 HBase， 在 
写 入 操作 提交 到 HBase 之 前 ， 应 该 先 将 该 操作 记录 于 WAL 日 志 中 。 如 果 遵循 这 个 过 程 ， 那 么 就 
不 需要 在 每 次 修改 数据 后 都 立即 持久 化 到 磁盘 ， 因 为 即使 在 出 现 崩 溃 的 情况 时 ， 系 统 仍然 可 以 用 
日 志 来 恢复 数据 库 。 此 外 ， 预 写 式 日 志 可 以 减少 系统 读 写 硬盘 的 频率 ， 因 为 在 提交 日 志 的 时 候 ， 
只 有 Log 文件 需要 持久 化 到 磁盘 ， 而 不 是 所 有 的 HBase 数据 内 容 。 此 外 ， 由 于 预 写 式 日 志 仍然 会 
影响 到 系统 的 性 能 ， 因 此 在 对 于 一 些 写 入 数据 不 太 频 繁 并 且 数据 一 致 性 要 求 不 太 严格 的 场景 下 ， 
可 以 禁用 预 写 式 日 志 以 提高 性 能 。 


e 数据 存储 模块 的 实现 


HBase 存储 模块 的 整体 静态 类 图 如 图 7.20 所 示 。 


HBaseCreateTable 






-hbaseConf 
+createTable(String, String): void 


-hbaseConf 


+deleteTable(String): void 








~conf: Configuration = null 
-hbaseConfig: HBaseConfiguration = null 
+getConf{): Configuration 





| HBaseWriter 








_-hbaseConf 
+addCell(String, String, String, String): void 
+addRow(String, String, List<String>, List<String>): void 
+delCell(String, String, String, String): void 
+delRow (String, String): void 


图 720 HBase 数据 存储 模块 的 静态 类 图 


数据 库存 储 模 块 主要 向 上 层 提供 写 入 数据 的 接口 。 这 里 来 自 上 层 的 数据 主要 是 写 入 一 行 数据 
或 者 写 入 某 些 特定 列 数据 的 接口 。 由 于 HBase API 中 提供 了 对 数据 写 入 操作 的 所 有 接口 ， 因 此 此 
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处 只 需 对 原生 API 进行 封装 ， 向 上 层 提供 统一 写 入 接口 和 特定 功能 的 写 入 接口 。HBaseWriter 类 
就 提供 了 写 入 数据 和 删除 数据 的 接口 ， 用 户 可 以 调用 addCell0 方 法 写 入 一 个 单元 格 ， 或 者 调用 
addRow() 方 法 写 入 一 行 数据 。 

HBaseCreateTable 类 提供 了 创建 新 表 的 接口 。 使 用 createTable 方法 就 可 以 创建 一 个 新 表 ， 而 
参数 则 为 表 名 和 列 族 名 。 这 里 列 族 名 只 有 一 个 String 型 ， 是 因为 无 论 是 数据 表 还 是 结构 表 ， 都 只 
有 一 个 列 族 。 

HBaseDeleteTable 类 提供 了 删除 一 个 已 存在 表 的 接口 。 使 用 deleteTable 方法 删除 指定 的 表 。 

HBaseConf 是 对 HBase 的 配置 类 ， 保存 了 配置 信息 ， 并 保持 一 个 连接 ， 其 他 类 会 使 用 
HBaseConf 已 经 创建 的 配置 连接 到 HBase。 

如 图 7.21 是 向 HBase 中 写 入 一 行 数据 的 addRow 函数 的 流程 图 , 函数 的 参数 包括 要 写 入 数据 
库 的 表 名 TableName、 输 入 文件 名 、 列 标签 数据 数组 和 对 应 的 值 数组 。 如 果 要 插入 的 数据 来 自 一 
个 新 的 XML 文件 节点 ， 那 么 首先 会 检查 数据 库 中 是 否 已 存在 同名 的 表 ， 如 果 不 存在 ， 则 会 创建 
一 个 新 的 表 ， 并 把 数据 插入 到 新 创建 的 表 中 。 


开始 
输入 数据 库 表 输入 行 关键 
名 TableName 字 、 列 名 和 值 
判断 输入 数据 
有 效 性 


调用 
N- 一 ?| CreateTable 接 
口 创建 表 
















创建 数据 库 
连接 








图 7.21 写 入 数据 到 HBase 的 addRow 函数 流程 图 


7.4.2 ”数据 检索 模块 的 详细 设计 与 实现 

数据 存储 映射 模型 的 建立 是 后 续 高 效 数据 检索 的 基础 ， 本 小 节 主要 介绍 海量 XML 数据 存储 和 检 
索 系统 在 数据 检索 方面 的 设计 与 实现 。 数 据 检索 主要 是 XQuery 的 映射 和 数据 查询 两 个 重要 部 分 。 

1. XQuery 查询 设计 描述 


在 实现 对 存储 在 HBase 中 的 海量 XML 文档 检索 时 ， 我 们 使 用 XQuery 为 前 端 查询 语言 ， 
XQuery 被 设计 用 来 查询 XML 数据 , XQuery 相对 于 XML 的 关系 , 等 同 于 SQL 相对 于 关系 数 
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据 库 的 关系 。XQuery 原本 的 设计 是 直接 基于 XML 文档 查询 的 ， 由 于 我 们 已 经 把 海量 小 XML 文 
档 存储 在 HBase 中 , 因此 需要 将 之 移植 到 HBase 数据 库 上 , 就 需要 修改 XQuery 解析 的 具体 实现 。 
图 7.22 显示 了 XQuery 查询 的 流程 。 


XQuery 语 句 解析 


了 


公历 xQuery 语 法 树 


+ 


返回 查询 结果 


7.22 ”XQuery 查询 流程 图 


XQuery 查询 的 主要 流程 有 XQuery 语句 解析 、 遍历 XQuery 语句 解析 出 来 的 语法 树 和 返回 查询 结 
果 。 在 遍历 语法 树 和 返回 结果 的 过 程 中 要 用 到 查询 结果 集 ， 结 果 集 的 设计 对 查询 过 程 有 很 大 影响 。 


2. XQuery 语句 解析 


XQuery 语句 解析 的 目标 是 根据 用 户 输 入 的 语言 明白 用 户 查询 的 意图 ， 分 析出 语言 背后 的 意 
义 ， 为 下 一 步 具 体 地 查询 HBase 数据 库 起 到 指导 作用 。XQuery 语句 解析 首先 要 识别 出 语句 中 的 
标识 符 〈 词 法 分 析 )， 标 识 记号 包括 : 关键 字 for、let、where、retum、and、or、in 等 ; 符号 :=、=、 
>、<、>=、<=、!=、/ 等 ; 文字 符号 包括 数字 字符 串 等 ， 以 “$” 开 头 后 跟 字 符 串 的 变量 。 其 次 要 
对 识别 出 来 的 标识 符 进行 语法 分 析 ， 并 构建 语法 树 。 在 整个 语句 解析 过 程 中 遇 到 词法 错误 或 者 语 
法 错误 调用 相应 的 错误 处 理 方法 进行 异常 处 理 。 

针对 本 系统 的 XQuery 语句 解析 ， 为 了 减少 工作 量 ， 增 加 系统 解析 的 可 靠 性 和 稳定 性 ， 我 们 
采用 了 一 个 用 Java 开发 的 最 受 欢 迎 的 语法 分 析 生 成 器 JavaCC， 这 个 分 析 生 成 器 工具 可 以 读 取 上 
下 文 无 关 且 有 着 特殊 意义 的 语法 并 把 它 转 换 成 可 以 识别 且 匹 配 该 语法 的 Java 程序 。JavaCC 还 提 
供 JJTree 工具 来 帮助 我 们 建立 语法 树 。 本 文 使 用 JavaCC 的 原因 是 W3C 的 XML Query 工作 组 
使 用 JavaCC 来 构建 并 测试 XQuery 语法 的 版 本 ; 另 一 个 原因 是 尽管 JavaCC 不 是 开放 源码 , 但 
它 是 完全 免费 的 。 

JavaCC 的 输入 是 巴 科斯 -诺尔 范式 (BNF)，JavaCC 将 BNF 描述 的 复杂 语言 的 语法 自动 生成 
解析 代码 。 针 对 XQuery 语句 的 BNF 我 们 采用 XML 的 查询 语言 的 W3C 规范 ，W3C 官网 上 给 
出 的 XQuery 的 FLWOR 语句 的 BNF 范式 如 下 。 
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以 上 这 段 BNF 摘自 W3C 的 XML Query 2002 年 11 月 15 日 的 工作 草案 。 

通过 JavaCC 和 JJTree 生成 的 解析 代码 能 够 为 用 户 输入 的 XQuery 语句 生成 相应 的 语法 解析 
树 ， 例 如 简单 的 XQuery 语句 : for $a in /bib/book where $a/publisher=“Xidian”retum $a/title， 经 
过 解析 生成 图 7.23 的 语法 树 。 





图 723 语法 树 
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生成 语法 树 后 进入 下 一 个 流程 ， 遍 历 生成 的 语法 树 ， 并 根据 语义 进行 相应 的 动作 ， 包 括 处 理 
变量 、 构 建 查询 的 XML 路 径 、 查 询 HBase 等 。 
3. 遍历 语法 树 
在 正式 介绍 遍历 语法 树 前 有 必要 对 结果 集 做 一 定 的 描述 。 结 果 集 对 整个 查询 过 程 很 重要 ， 要 
求 结果 集 能 够 应 对 查询 内 部 的 递归 使 用 ， 而 且 结 果 集 要 尽量 简洁 高 效 。 本 系统 的 结果 集中 的 属性 
如 下 所 示 。 


String xpath=""; 





List<String> columns7 
List<String> file; 
int validNum; 


xpath 用 于 存放 本 结果 集 的 XML 文档 全 路 径 。columns 用 于 存放 查询 结果 数据 在 HBase 中 
的 编码 ， 即 Path2Code 表 中 的 值 ， 也 是 Code2Value 表 的 列 名 ，file 是 对 应 于 columns 编码 在 
Code2Value 表 中 的 RowKey〔 即 XML 文档 名 )。 根 据 columns.get(i) 和 file.get(i) 即 可 确定 结果 集 
中 的 具体 的 一 条 记录 。validNum 用 于 存放 本 结果 集中 的 具体 结果 数 。 

遍历 XQuery 解析 过 程 中 产生 的 语法 树 ， 根 据 相 应 的 语义 完成 具体 的 操作 动作 。 下 面 以 
FLWOR 语句 为 代表 简要 介绍 遍历 语法 树 过 程 中 的 语义 动作 。 

for 语句 :记录 变量 名 称 并 构建 变量 对 应 的 结果 集 。 代 码 如 下 : 

SimpleNode variable = (SimpleNode) forNode.jjtGetChild(0); 

SimpleNode value = (SimpleNode) forNode.jjtGetChild(1); 

ResultList forLoopVariableValue = eval( value ); 

String varName = ((SimpleNode) variable.jjtGetChild( 0 )) .getText (); 

int variableId = m vars.newVariable( varName, forLoopVariableValue, FOR_INDEX ); 


varName 存放 具体 的 变量 名 称 ，m_vars 将 变量 和 其 对 应 结果 集 绑 定 在 一 起 ， 并 标记 该 变量 类 
型 是 FOR_INDEX。 

let 语句 :记录 变量 名 称 并 构建 变量 对 应 的 结果 集 。 代 码 如 下 ; 

SimpleNode variable = (SimpleNode) letNode.jjtGetChild(0); 

SimpleNode value = (SimpleNode) letNode.jjtGetChild(1); 

String varName = ((SimpleNode) variable.jjtGetChild( 0 )) .getText (); 


m vars.newVariable( VarName，eval( value ), LET INDEX ); 


处 理 过 程 和 for 语句 类 似 ， 但 是 构造 结果 集 操作 不 同 ，for 语句 直接 通过 全 路 径 xpath 获得 所 
有 的 值 ， 而 let 语句 分 为 两 种 情况 : let 语句 中 有 FOR_INDEX 类 型 变量 ， 则 根据 变量 的 条 件 构造 
结果 集 ， 完 成 对 xpath 范围 的 指定 ， 没有 FOR_INDEX 类 型 变量 ， 构 造 过 程 和 for 语句 相同 。 

根据 生成 的 XQuery 语法 树 ， 可 以 判断 where 条 件 是 否 为 室 ， 并 依据 此 将 查询 分 为 两 类 ; 

第 一 类 XQuery 表达 式 语法 树 的 where 条 件 为 空 ， 也 就 是 说 Xquery 语句 中 不 包括 对 节点 具体 
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值 的 查询 ， 只 是 找到 符合 某 种 路 径 条 件 的 元 素 节点 集合 ， 例 如 : 


for $a in /bookstore/book 


return $a 


第 二 类 则 包含 了 某 些 需要 查询 节点 具体 的 值 来 确定 节点 是 否 符合 条 件 的 路 径 ， 例 如 : 


for $a in /bookstore/book 
where $a/@id=123 
return $a 


对 于 第 一 类 查询 ， 在 XML2HBase 映射 模型 得 到 映射 表 后 ， 直 接 在 XML 文档 结构 映射 表 上 
就 能 快速 得 到 需要 查询 的 HBase 列 。 但 第 二 种 查询 则 需要 将 查询 数据 库 的 部 分 单独 列 出 来 进行 处 
理 。 


4. 执行 查询 操作 并 返回 查询 结果 
对 于 第 一 种 查询 ， 直 接 对 映射 表 进行 查询 的 速度 非常 快 。 从 path2code 数据 映射 表 中 查找 相 
应 条 件 下 的 所 有 满足 条 件 的 列 编码 ， 然 后 可 直接 查询 code2value 映射 表 得 到 相应 的 查询 结果 。 
对 于 第 二 种 查询 ， 需 要 根据 条 件 从 HBase 中 取出 满足 条 件 的 结果 的 columns 和 file。 进 行 语 
义 动作 过 程 如 下 : 
@ 根据 结果 集中 的 xpath 属性 从 PathToCode 表 中 获得 相应 的 全 路 径 的 编码 。 
e@ 以 获得 的 编码 为 列 从 Code2Value 表 中 取 值 并 判断 是 否 满足 条 件 ， 若 满足 条 件 则 分 别 添加 
列 名 和 RowKey 到 columns 和 file 中 , 在 该 过 程 中 为 了 充分 发 挥 HBase 自身 的 处 理 海量 数 
据 的 特性 ， 系 统 采用 HBase 的 过 滤器 从 Code2Value 中 读 取 数 据 。 


根据 遍历 XQuery 语法 树 返 回 结果 集中 的 columns 和 file 属性 ,从 HBase 上 具体 的 Code2Value 
表 中 取得 对 应 的 数据 ， 以 字符 串 的 形式 返回 。 


®。 对 于 and 和 or 连接 的 多 条 件 的 where 语句 对 单个 条 件 得 到 的 结果 集 进 行 集合 的 交 并 操作 
and 语句 进行 “ 交 ” 操 作 ，or 语 句 进行 “并 ”操作 ， 由 于 columns.get(i) 和 file.get(i) 确 定 一 条 
数据 ， 因 此 结果 集 的 交 并 操作 是 针对 columns 和 file 进行 的 。 在 进行 交 并 操作 前 需要 将 结果 
集 的 columns“ 同 一 化 ”， 例 如 /bib/bookltitle 和 /bib/book/price， 对 它们 的 编码 值 是 不 同 的 ， 
它们 进行 交 并 操作 是 无 意义 的 ， 需 要 将 编码 规约 到 两 个 路 径 具 有 相同 父亲 元 素 的 层次 ， 对 
于 本 例 ， 要 从 编码 中 取出 /bib/book 的 编码 ， 即 去 掉 编码 中 最 后 一 个 “” 符 号 及 其 后 面 的 编 
码 ， 然 后 进行 交 并 操作 ， 并 将 结果 保存 到 结果 集中 。 下 面 为 提取 父 路 径 的 代码 : 


Public String getParentCol (String childcol,int n){ 
if(n==0){ 
return childCol; } 
int offset; 
int offset2=childCol.length(); 


293 


实战 大 数据 
for (int i=0;i<n;i++){ 
offset = childCol.lastIndexOf('.', offset2 - 1); 
offset2 = childcol .lastIndezOf('.', offset - 1);} 
return chilgdCol.substring(0, offset2); 
+ 


return 语句 : 首先 构建 将 要 返回 的 XML 全 路 径 即 结果 集中 的 xpath， 对 于 没有 where 语句 的 
查询 ， 直 接 返 回 结果 集 ， 有 where 语句 的 查询 ， 要 根据 where 语句 的 结果 集中 的 columns 和 file 
获得 最 终 返回 结果 集中 的 columns 和 file。 

其 实 ， 第 二 类 查询 又 细 分 为 两 类 ， 即 直接 查询 和 通过 过 滤器 查询 。 

(1) 直接 查询 

直接 查询 是 指 不 需要 进行 条 件 判断 的 查询 ， 例 如 获取 某 一 列 的 数据 等 。 这 类 查询 直接 使 用 

HBaseReader 提供 的 接口 即 可 。 此 处 给 出 直接 查询 HBase 的 序列 图 ， 如 图 7.24 所 示 。 
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图 7.24 直接 查询 序列 图 
人 OOi， 调用 query() 函 数 获 取 指 定 列 ， 由 于 调用 HBaseQuery 接口 之 前 已 经 通过 XML2HBase 映 
射 表 获 得 了 要 查询 的 路 径 对 应 的 列 集合 ， 因 此 query() 函 数 直接 指定 为 需要 查询 的 列 就 
可 以 。 
全 2 调用 HBaseReader 的 getPath(0) 函 数 , 并 将 HBaseQuery 实例 传 过 来 的 传 入 getPath() 函 数 , 


294 


第 7 章 采用 HBase 实现 海量 小 型 XML 文档 的 存储 与 检索 





人 03 HBaseReader 实例 创建 一 个 HTable 类 的 实例 ， 对 HBase 中 的 表 进 行 操作 。 

人 04 HBaseReader 实例 创建 一 个 Scan 类 的 实例 , Scan 类 是 HBase 表 的 扫描 类 , 可 以 通过 Scan 
类 的 实例 指定 需要 扫描 行 关键 字 区 间 和 列 等 。 

人 05 将 需要 读 取 的 HBase 列 使 用 scan.addColumn() 函 数 添加 到 scan 中 ， 并 调用 HTable 的 
getScanner() 方 法 进行 扫描 。 

二 06 HTable 实例 创建 一 个 resultScanner 类 的 对 象 , resultScanner 类 是 获取 来 自 HBase 的 结果 
集 ， 所 有 的 查询 结果 都 保存 在 resultScanner 中 。 

人 7 HBaseReader 获得 resultScanner 的 实例 ， 并 解析 当前 resultScanner 的 当前 行 结果 。 

人 8 使 用 resultScannernext0 获 取 下 一 行 结果 ， 如 果 resultScanner 已 经 没有 下 一 行 数据 则 结 
束 程序 循环 ， 否 则 转 到 第 7 步 。 


(2) 过 滤器 查询 

关系 数据 库 的 SQL 语句 提供 了 丰富 的 查询 条 件 , 方便 用 户 对 表 中 数据 进行 过 滤 。HBase 作为 
一 款 数据 库 ， 也 提供 了 对 数据 的 过 滤 功 能 。HBase 的 Scan 和 Get 操作 都 能 够 获取 指定 行 关键 字 的 
数据 ， 甚 至 还 可 以 指定 获取 特定 列 族 、 列 标签 以 及 某 个 时 间 改 范围 内 的 数据 ， 但 对 于 用 户 而 言 ， 
可 能 还 希望 对 行 、 列 以 及 值 进行 过 滤 ， 以 获取 包含 特定 部 分 或 在 符合 特定 条 件 的 数据 ， 例 如 获取 
所 有 值 在 100 到 200 之 间 的 行 。 

显然 , 上面 的 需求 可 以 由 客户 端 通过 Scan 或 者 Get 操作 获取 到 数据 后 , 再 在 客户 端 编程 获取 
需要 的 数据 ， 但 这 种 客户 端 过 滤 会 增加 用 户 实现 应 用 的 复杂 度 ， 同 时 占用 更 多 的 客户 端 性 能 。 
事实 上 ，HBase 通过 过 滤器 提供 了 更 细 粒 度 的 查询 功能 ， 例 如 通过 正则 表达 式 过 滤 行 关键 字 
或 者 值 。HBase 提供 了 一 个 过 滤器 结构 类 Filter， 并 预先 实现 了 多 种 过 滤器 。 用 户 需要 对 数据 进行 
过 滤 时 ， 可 以 选择 HBase 已 经 实现 的 过 滤器 在 服务 端 对 数据 进行 过 滤 。 即 使 HBase 提供 的 过 滤器 
功能 不 够 理想 ， 开 发 者 也 可 以 通过 实现 FilterBase 类 编写 自己 的 过 滤器 ， 这 使 得 HBase 的 过 滤 功 
能 非常 灵活 。 

HBase 提供 了 丰富 的 过 滤器 ， 图 7.25 中 列 出 了 部 分 HBase 提供 的 过 滤器 ， 例 如 
SingleColumnValueFilter 对 单个 列 的 值 进行 过 滤 ， 过 滤 条 件 可 以 是 字符 串 比 较 或 者 数值 比较 等 。 
CompareFilter 提供 了 对 包括 行 关 键 字 、 列 族 、 列 标签 以 及 值 等 粒度 的 条 件 过 滤 。 此 外 ， 根 据 由 于 
HBase 提供 了 FilterBase 作为 过 滤器 的 基 类 ， 因 此 这 里 可 以 根据 实际 情况 自己 创建 特殊 的 过 滤器 。 

对 于 本 系统 ， 由 于 数据 都 是 以 字 节 的 形式 存储 在 HBase 中 ，HBase 自 带 的 过 滤器 只 能 对 字符 
串 条 件 进 行 过 滤 ， 而 XQuery 语句 支持 整数 和 小 数 条 件 查询 ， 因 此 需要 扩充 HBase 的 过 滤器 使 其 
支持 整数 和 小 数 的 过 滤 操 作 。 下 面 列 出 整数 过 滤器 的 核心 代码 ， 小 数 过 滤器 与 之 类 同 ， 将 自 定义 
过 滤器 打包 成 jar 文件 上 传 到 HBase 集群 中 的 每 个 机 器 上 并 且 重 启 HBase 服务 器 ， 才 能 生效 。 
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ColumnCountGetFilter 
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SkipFilter 
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QualifierFilter ValueFilter SingleColumnValueExcludeFilter 


图 7.25 数据 检索 模块 的 过 滤器 查询 类 图 


自 定义 整数 比较 过 滤器 代码 如 下 : 










WhileMatchFilter 






























Private boolean filterColumnValue (final byte [] data, final int offset, 
final int length) { 
int value=Integer.parselInt (Bytes .toString(this .comparator.getValue ())); 
int real=Integer.parseInt (Bytes.toString (data, offset, length)); 
Switch (this.compareOp) { 
case LESS: 
return value > real; 
Case LESS_OR_ EQUAL: 
return value >= real; 
case EQUAL: 
return value == real; 
case NOT _ EQUAL: 
return value != real; 
Case GREATER OR EQUAL: 
return value <= real; 
case GREATER: 


return value < real; 
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default: 
throw new RuntimeException ("Unknown Compare op " + compareOp.name()); 
} 
' 


使 用 过 滤器 的 查询 方式 的 具体 步骤 是 : 


人 0) HBaseQuery 类 提供 条 件 查询 接口 ， 并 将 具体 查询 条 件 发 送 到 FilterQuery 类 的 实例 。 

人 602 FilterQuery 根据 条 件 选择 适当 的 Filter， 并 将 过 滤 条 件 填 入 Filter 生成 具体 过 滤器 实例 。 
实际 使 用 中 ， 条 件 可 能 不 唯一 ， 因 此 需要 选择 多 个 Filter。HBase 提供 了 对 多 个 Filter 
实例 的 支持 ,并 能 够 指定 查询 命中 的 条 件 是 满足 所 有 的 过 滤器 还 是 满足 其 中 之 一 。 这 些 
过 滤器 实例 以 及 过 滤器 间 的 过 滤 条 件 构成 了 一 个 过 滤器 队列 FilterList。 

人 D03 FilterQuery 将 过 滤器 序列 FilterList 传递 给 HBaseReader 实例 ，HBaseReader 中 的 
queryWithFilter() 方 法 将 FilterList 作为 构造 参数 传递 给 Scan， 构 成 一 个 Scan 实例 。 

人 4 创建 HTable 的 实例 ， 并 调用 getScanner() 方 法 ， 使 用 Scan 实例 对 HBase 进行 查询 ， 并 
得 到 最 后 的 结果 集 ResultScanner 实例 。 

人 5 循环 解析 ResultScanner 实例 中 的 每 一 行 数据 ， 得 到 最 终 查 询 结果 。 


5. XQuery 分 页 查询 


由 于 存储 的 XML 文档 数据 是 海量 的 ， 因 而 有 可 能 造成 查询 出 的 数据 也 是 海量 的 ， 这 就 极 有 
可 能 造成 查询 的 过 程 中 内 存 溢出 ; 即使 没有 发 生 内 存 溢出 ， 随 着 存储 的 数据 量 不 断 增加 ， 一 次 查 
询 有 可 能 会 消耗 很 长 时 间 才 能 有 响应 (返回 查询 结果 ), 造成 用 户 体验 不 佳 , 面 对 上 面 的 两 个 问题 ， 
这 里 采用 了 分 页 查询 的 策略 。 同 时 HBase 的 scan 操作 可 以 通过 设置 读 取 数据 表 的 起 始 行 和 终止 行 
分 页 读 取 数据 ， 该 操作 为 分 页 查询 提供 了 基础 。 

XQuery 分 页 具体 实施 方案 为 ， 对 每 个 XML 数据 表 ， 按 一 定 的 步 长 取 记 录 存 储 在 HBase 
Code2Value 表 中 的 RowKey〈 即 XML 文档 名 ) 作为 分 页 点 ， 然 后 通过 设置 scan 的 起 始 行 和 终止 
行 实现 分 页 查询 ， 经 过 多 次 实验 测试 ， 当 前 系统 取 步 长 为 5000 效果 较 好 。 由 于 从 一 个 存储 了 海量 
XML 文档 的 表 中 取出 所 有 的 分 页 点 是 耗 时 、 耗 资源 的 任务 ， 一 个 存储 了 23 万 个 XML 文档 的 表 
获取 所 有 分 页 点 的 时 间 大 概 是 12 秒 ， 且 一 个 XML 数据 表 的 分 页 点 不 经 常 变 化 ， 因 此 每 次 查询 从 
表 中 获取 一 次 分 页 点 是 不 明智 的 ， 这 里 的 解决 方法 是 将 一 个 表 的 所 有 分 页 点 存放 到 HBase 上 的 
tables 表 中 的 index 列 ，tables 的 表 结构 如 表 7.7 所 示 。 


表 7.7 tables 表 结构 








RowKey 


Creater time Count index 
xmark-10.0-1 [si | 2013-04-25 230001 [file0,filel,.. .filen] 
zaot5 | [mom | 





从 表 7.7 可 以 看 出 tables 表 中 除了 有 每 个 表 的 分 页 点 信息 外 ， 还 有 表 的 创建 者 、 创 建 时 间 、 
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表 内 的 文档 数 信息 。 这 里 维护 XML 数据 表 index 的 策略 是 当 用 户 向 XML 数据 表 中 上 传 XML 文 
档 树 大 于 等 于 5000 时 才 重 新 获取 一 次 该 表 的 所 有 分 页 点 ， 并 更 新 相应 的 index 值 。 当 用 户 上 传 少 
量 文件 时 由 于 HBase 存储 数据 按照 RowKey 排序 插入 ， 上 传 的 每 个 文件 都 会 插入 到 某 两 个 分 页 点 
之 间 ， 因 此 查询 时 不 会 缺少 刚 上 传 文件 的 结果 。 同 时 可 以 设置 一 个 后 台 服 务 进程 ， 每 隔 一 段 时 间 
对 所 有 XML 数据 表 进 行 更 新 index 操作 。 

有 了 XML 数据 表 的 所 有 分 页 点 ， 另 一 个 好 处 是 可 以 并 行 地 对 多 个 页 进行 查询 ， 从 而 提高 整 
体 的 查询 效率 。 在 本 系统 中 我 们 采用 线程 池 进行 多 个 页 面 的 并 行 查询 。 


ThreadPoolExecutor threadPool = new ThreadPoolExecutor (10, 15, 2, TimeUnit .SECONDS, 
new LinkedBlockingQueue<Runnable> ()); 


为 了 减少 线程 池 初期 创建 线程 的 时 间 ， 初 始 化 最 少 线程 数 设置 为 10， 为 了 防止 过 多 的 线程 造 
成 资源 消耗 过 大 ， 设 置 最 大 线程 数 为 13， 线 程 所 允许 的 空闲 时 间 设 为 2 秒 。 


6. XQuery 查 多 模块 的 核心 类 图 
XQuery 查询 模块 的 核心 类 图 如 图 7.26 所 示 。 
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7.26 。 XQuery 查询 模块 核心 类 图 


从 图 7.26 可 以 看 出 , XQuery 查询 模块 核心 类 包括 HBaseData 类 、QueryThread 类 、TreeWalker 
类 、XQueryParser 类 、Variables 类 、HBaseReader 类 和 ResultList 类 。HBaseData 类 是 查询 的 主 入 
口 类 ，query 函数 使 用 线程 池 进 行 查询 。QueryThread 类 是 具体 查询 的 线程 类 。XQueryParser 类 进 
行 XQuery 语句 的 解析 ， 最 后 生成 语法 树 ，TreeWalker 类 主要 遍历 语法 树 ， 调 用 Variables 进行 变 
量 操作 ，ResultList 类 是 结果 集 类 ， 包 含 结果 集 的 交 并 等 操作 ，HBaseReader 类 主要 处 理 从 HBase 
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中 读 取 数 据 。 
图 7.27 是 XQuery 查询 的 序列 图 ， 从 图 中 可 以 看 出 XQuery 查询 的 序列 为 : 


个 Dl01 调用 HBaseData 的 query 函数 ， 首 先 取出 XML 数据 表 的 所 有 分 页 点 ， 创 建 线程 池 ， 为 
每 个 查询 页 运行 一 个 QueryThread 线程 进行 查询 操作 。 

D02 QueryThread 创建 XQueryParser 对 XQuery 语句 进行 解析 ， 并 构建 语法 树 。 

个 D03 QueryThread 创建 TreeWalker 实例 ， 并 调用 TreeWalker 的 walk() 方 法 遍历 语法 树 。 

人 4 遍历 语法 树 的 过 程 中 创建 中 间 结 果 集 ， 调 用 HBaseReader 中 的 方法 填充 结果 集 。 

人 005 将 遍历 完成 后 的 结果 集 返 回 到 QueryThread 中 。 

人 6 QueryThread 调用 HBaseReader 中 的 方法 根据 结果 集 获取 查询 结果 。 

人 7 QueryThread 返回 查询 结果 。 


1 1 






new QueryParseO| 


result:Resulk 
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7.27 XQuery 查询 序列 图 


7.4.3 ”用户 模块 的 详细 设计 与 实现 


1. 用 户 模块 实现 的 描述 
用 户 模块 主要 是 对 系统 进行 多 用 户 支 持 , 提高 系统 的 利用 率 , 同时 预防 某 些 用 户 的 恶意 操作 。 
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实战 大 数据 


与 用 户 模块 有 关 的 操作 有 用 户 登 录 、 管 理 员 管 理 用 户 、 管 理 用 户 权限 等 操作 。 系 统 为 了 完成 以 上 
的 功能 或 操作 需要 在 服务 器 端 保存 用 户 的 用 户 名 、 密 码 、 针 对 每 个 XML 数据 表 的 权限 等 信息 ， 
当 用 户 登 录 或 者 对 用 户 管理 时 对 HBase 上 的 数据 进行 查找 或 修改 。 

记录 用 户 信息 的 表 是 users 表 ， 具 体 的 表格 式 如 表 7.8 所 示 。 

















表 7.8 users 表格 式 
| User | 
| usemame password | 
| admin | admin 19901124 | 





1234 


从 表 7.8 可 以 看 出 users 表 有 两 个 列 族 ， 一 个 列 族 为 user 保存 用 户 的 基本 信息 , 包括 用 户 名 、 
密码 和 是 否 为 管理 员 ， 另 一 个 列 族 为 tables， 该 列 族 保存 该 用 户 针对 每 个 XML 数据 表 的 权限 ， 列 
名 就 是 XML 数据 表 的 名 称 ,用 户 对 XML 数据 表 的 权限 分 为 不 可 见 、 可 读 和 可 读 写 三 种 权限 ， 分 
别 用 0、1、2 代表 。 每 添加 一 个 XML 数据 表 需 要 向 tables 列 族 中 添加 一 列 ， 并 设置 相应 的 用 户 
权限 。 

用 户 登 录 时 ， 需 要 查询 users 表 的 user 列 ， 验 证 用 户 名 和 密码 ， 并 查询 是 否 为 管理 员 ; 管理 
员 添 加 和 删除 用 户 时 ， 添 加 或 删除 相应 的 行 ， 编 辑 权限 时 修改 tables 列 族 的 相应 列 的 值 。 


2. 用 户 模块 的 具体 实现 
图 7.28 是 用 户 模块 的 核心 类 图 。 
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图 7.28 用 户 模块 核心 类 图 


从 图 7.35 的 用 户 模块 核心 类 图 可 以 看 出 ， 用 户 模块 的 核心 类 包括 User 类 、HBaseData 类 、 
UserOp 类 、ChangePassword 类 和 UserInfo 类 。User 类 是 用 户 的 实体 类 ，User 内 的 属性 和 HBase 
的 users 表 信息 一 一 对 应 ,User 的 方法 getValue(String) 获 得 针对 某 个 XML 数据 表 的 权限 ,isAdmin0 
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返回 该 用 户 是 否 是 管理 员 。UserOp 类 是 与 HBase 中 users 表 的 交互 类 ， 该 类 提供 了 查询 修改 用 户 
信息 的 方法 ， 例 如 login(String,String) 方 法 用 于 登录 验证 ，auth(String,int) 方 法 用 于 修改 针对 某 个 数 
据 表 的 权限 。HBaseData 类 是 用 户 模块 的 上 层 类 ， 该 类 中 包含 添加 、 删 除 用 户 ， 添 加 、 删 除数 据 
表 等 与 用 户 有 关 的 操作 。ChangePassword 类 是 用 户 修改 密码 的 类 。UserInfo 类 是 为 管理 员 列 出 某 
用 户 的 所 有 权限 ， 并 提供 权限 修改 。 

至 此 ， 海 量 小 型 XML 数据 的 存储 和 检索 平台 已 经 建立 起 来 ， 对 于 本 章 初 提出 的 问题 已 成 功 
解决 。 





本 章 小 结 


随 着 互联 网 技术 的 快速 发 展 , 大 数据 处 理 成 为 云 计算 、 物 联网 领域 的 一 个 颠覆 性 的 技术 变革 。 
XML 作为 一 种 重要 的 信息 交付 格式 ， 对 XML 的 存储 和 检索 技术 研究 已 经 有 很 多 年 的 历史 了 ,并 
且 目 前 也 有 一 些 基 于 分 布 式 的 XML 文件 存储 和 检索 的 研究 。 但 截至 目前 为 止 ， 仍 然 没 有 一 个 完 
整 成 熟 的 分 布 式 海量 XML 处 理 系统 的 解决 方案 , 因此 难以 满足 日 益 突 出 的 海量 XML 数据 存储 和 
检索 的 需求 。 针 对 以 上 问题 ， 本 章 以 实际 项 目 为 背景 ， 借 鉴 了 当前 流行 的 云 计算 平 台 Hadoop 以 
及 分 布 式 存储 系统 HBase， 利 用 分 布 式 处 理 框架 ， 在 HBase 上 实现 了 一 个 海量 XML 数据 存储 和 
检索 的 平台 。 本 着 提高 海量 数据 处 理 的 高 可 扩展 性 和 高 效 的 目标 ， 这 里 实现 的 系统 一 定 程度 上 解 
决 了 海量 XML 数据 ， 特 别 是 海量 XML 小 文件 的 存储 和 检索 问题 。 
本 章 主要 介绍 了 以 下 内 容 : 
@ 提出 了 一 个 由 XML 数据 存储 到 HBase 数据 库 的 数据 映射 机 制 采用 四 路 编码 算法 对 XML 
节点 进行 编码 ， 可 以 实现 从 XML 节点 到 HBase 列 的 双向 映射 ， 并 能 够 动态 适应 XML 文 
档 的 节点 增加 。 

日 提出 并 实现 了 一 个 针对 HBase 的 XML 检索 平台 ,针对 不 同 的 检索 类 型 实现 不 同 的 检索 方 
式 ， 并 使 用 MapReduce 并 行 计算 实现 高 效 的 检索 效率 。 

e@ 实现 了 一 个 HBase 数据 访问 接口 ， 充 分 地 利用 了 HBase 数据 库 的 特性 。 利 用 HBase 的 分 
布 式 特性 ， 实 现 了 具有 较 好 可 扩展 性 和 并 发 性 能 的 数据 检索 系统 。 

@ 以 XQuery 为 前 端 查询 语言 ， 通 过 对 XQuery 语句 的 解析 并 结合 HBase 的 操作 ， 实 现 了 对 

存储 在 HBase 中 的 海量 XML 文档 的 检索 ， 并 且 提 供 对 查询 结果 保存 到 本 地 文件 的 功能 。 

@ 添加 用 户 管理 ,管理 员 可 以 进行 添加 和 删除 用 户 的 操作 ， 同 时 可 以 针对 每 个 数据 表 对 用 户 

进行 权限 的 管理 。 

本 章 详细 介绍 了 海量 小 型 XML 数据 存储 与 检索 系统 从 无 到 有 、 从 需求 分 析 到 实现 的 整个 过 


程 ， 希 望 让 读者 充分 了 解 利用 云 平台 处 理 大 数据 的 方式 ， 有 利于 读者 深入 理解 利用 云 平台 解决 大 
数据 的 问题 。 
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采用 Map/Reduce 讲 行 大 规模 
社交 网 络 社团 发 现 


近年 来 ， 随 着 互联 网 的 飞速 发 展 ， 特 别 是 社交 网 络 的 日 益 普 及 ， 为 了 能 够 在 可 接受 的 计算 成 
本 下 对 网 络 中 蕴含 的 规律 进行 研究 发 现 ， 就 需要 设法 简化 研究 对 象 。 伴 随 着 信息 技术 的 发 展 ， 人 
们 在 互联 网 上 的 活跃 度 越 来 越 高 ， 能 够 接触 的 信息 也 越 来 越 多 。 互 联网 上 的 数据 以 海量 的 规模 存 
在 ， 并 持续 高 速 增长 。 怎 样 从 海量 的 数据 中 挖掘 出 价值 含量 高 的 信息 是 人 们 人 迫切 关心 的 技术 。 因 
而 ， 社 团 发 现 这 一 课题 越 来 越 受 关 注 。 然 而 网 络 的 规模 和 结构 日 益 复杂 和 庞大 ， 现 有 的 一 些 社团 
发 现 算法 已 不 再 适用 ， 存 在 着 社团 发 现 结果 不 稳定 、 无 法 发 现 重 礁 社团 和 无 法 处 理 大 规模 网 络 等 
问题 ， 特 别 是 许多 算法 在 处 理 大 规模 网 络 时 效率 很 低 。 聚 类 算法 作为 一 种 非 监 督学 习 的 方法 ， 是 
包括 数据 挖掘 、 机 器 学 习 、 模 式 识 别 、 图 像 分 析 等 诸多 领域 数据 统计 分 析 的 一 种 常用 技术 ,已 经 
得 到 科研 人 员 的 深入 研究 。 但 是 ， 传 统 的 串 行 式 的 聚 类 算法 存在 着 两 个 问题 ， 已 经 难以 满足 实际 
应 用 的 需求 : 一 是 聚 类 的 速度 不 快 ， 效 率 不 是 很 高 ， 二 是 在 面 对 规 模 比较 大 的 数据 时 ， 受 制 于 内 
存 容量 的 限制 ， 往 往 不 能 有 效 地 运行 。 

针对 现 有 一 些 算法 无 法 处 理 大 规模 网 络 的 问题 ， 本 章 在 随机 游 走 算法 (Random Movement 
Strategy) 和 仿 射 传播 聚 类 算法 (Affinity Propagation Clustering Algorithm， 下 文 简称 AP 聚 类 ) 的 
基础 上 ， 借 助 MapReduce 编程 模式 ， 将 两 种 算法 迁移 到 云 平台 上 ， 分 别 给 出 随机 游 走 算法 和 仿 射 
传播 聚 类 算法 的 并 行 化 。 对 比 两 种 并 行 化 算法 与 其 他 算法 在 多 组 测试 集 上 的 社团 划分 质量 和 运行 
效果 ， 特 别 的 ， 在 处 理 大 规模 网 络 测试 集 时 ， 算 法 的 MapReduce 版 本 也 表现 出 了 较为 理想 的 社团 
划分 质量 和 运行 效果 。 

















研究 背景 


近年 来 ， 随 着 互联 网 的 发 展 ， 网 络 的 规模 越 来 越 大 ， 所 包含 的 结 点 数 往往 能 达到 亿 级 甚至 十 
亿 ， 在 其 他 领域 ， 如 生物 领域 的 细胞 数目 ， 所 牵涉 到 的 结 点 数目 往往 更 大 ， 要 想 探究 这 些 网 络 的 
规律 ， 若 直接 对 包含 了 海量 结 点 及 连接 关系 的 网 络 进行 处 理 ， 往 往 需要 庞大 的 计算 量 ， 以 现 有 的 
计算 资源 ， 难 以 满足 如 此 之 高 的 计算 需求 。 而 网 络 内 部 所 包含 的 结 点 ， 以 及 这 些 结 点 之 间 的 连接 
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关系 ， 往 往 不 是 杂乱 无 章 的 ， 而 是 蕴含 了 某 种 规律 我们 遇 到 的 大 多 数 网 络 ， 其 内 部 都 包含 社团 
结构 Community Structure)。 所 谓 社团 结构 ， 一 般 定性 的 定义 为 处 于 社团 内 部 的 结 点 之 间 连 接 紧 
密 ， 而 处 于 不 同 社团 之 间 的 结 点 连接 则 相对 稀 琉 。 挖 掘 网 络 中 隐藏 的 社团 结构 ， 对 我 们 研究 网 络 
的 规律 和 特性 有 着 重要 的 参考 作用 。 

社团 结构 在 许多 方面 具有 重要 意义 和 作用 , 例如 市 场 营销 、 犯 罪 团 伙 发 现 、 病毒 传播 研究 等 。 
移动 通信 运营 公司 可 以 在 社团 的 基础 上 利用 个 性 化 推荐 来 为 用 户 推荐 业务 ， 因 为 社会 网 络 中 一 个 
社团 有 可 能 是 兴趣 爱好 相近 的 人 群 ， 这 样 可 以 提高 推荐 的 成 功率 。 在 生物 学 网 络 中 ， 社 团 往 往 代 
表 某 种 特定 功能 的 模块 ， 这 种 社团 结构 有 助 于 人 们 理解 其 运行 机 理 ， 进 而 能 更 清晰 地 探 察 其 内 部 
逻辑 ， 发 现 未 知 的 规律 。 在 计算 机 科学 中 ， 对 社团 的 研究 和 分 析 有 助 于 在 并 行 计算 中 合理 分 配 任 
务 以 减少 各 个 计算 节点 之 间 的 通信 成 本 ， 从 而 提高 计算 效率 。 总 之 ， 社 团结 构 能 帮助 人 们 直观 地 
认识 复杂 网 络 的 结构 和 功能 ， 从 而 可 以 更 好 地 理解 和 利用 复杂 网 络 。 
正 因为 社团 结构 对 人 们 在 理解 复杂 网 络 的 结构 和 功能 方面 的 重要 性 ， 许 多 研究 者 投入 了 对 社 
团 发 现 算法 的 研究 ， 并 提出 了 许多 新 的 社团 发 现 算法 。 经 过 最 近 十 来 年 的 发 展 ， 社 团 发 现 的 研究 
取得 了 重要 进展 ， 并 在 很 多 领域 有 了 成 功 的 应 用 。 划 分 网 络 中 社团 结构 的 算法 可 分 为 4 大 类 。 


1. 第 一 类 是 基于 图 论 的 算法 


基于 图 论 的 算法 基本 思想 是 给 定 一 个 网 络 ， 将 其 分 解 成 一 些 子 网 络 ， 各 个 子 网 络 内 的 节点 数 
基本 相等 ， 并 且 处 于 不 同 子 网 内 的 节点 之 间 的 连接 非常 少 。 图 分 割 (Graph Partitioning) 是 计算 机 
科学 中 的 方法 。 基 于 图 分 割 的 著名 算法 有 Kernighan-Lin 算法 〈 简 称 为 K-L 算法 )、 基 于 拉 普 拉 斯 
图 特征 值 的 谱 平 分 法 和 W-H 快速 谱 分 割 法 等 ， 其 中 ，K-L 算法 的 主要 思想 是 先 随机 或 者 根据 已 
知 信息 将 原 图 划分 成 两 个 规模 已 知 的 子 图 , 在 之 后 每 一 步 的 迭代 步骤 中 , 为 了 获得 品质 因数 Q( 定 
义 为 表示 子 图 内 边 数 跟 子 图 间 边 数 的 差别 大 小 ) 的 最 优 解 ， 在 两 个 子 图 中 选择 规模 相等 的 子 图 ， 
进行 交换 ， 在 迭代 过 程 中 为 了 避免 只 达到 局 部 最 优 的 Q 值 , 会 允许 Q 值 有 下 降 ,， 最 终 达到 一 个 稳 
定 的 最 优 解 。K-L 算法 最 大 缺陷 是 必须 为 算法 预先 指定 两 个 社区 的 大 小 ， 否 则 算法 会 得 到 错误 的 
划分 结果 ， 这 就 使 K-L 算法 的 应 用 非常 有 限 ， 在 大 多 数 的 真实 网 络 中 根本 无 法 得 到 应 用 。 另 一 个 
常用 的 图 分 割 算 法 为 谱 平分 法 ， 其 主要 思想 是 利用 了 拉 普 拉 斯 矩阵 的 谱 特 性 ， 该 拉 普 拉 斯 矩阵 L 
是 一 个 实 对 称 矩 阵 。 人 们 在 使 用 这 类 方法 时 ， 预 先 不 能 确定 究竟 将 图 分 成 多 少 个 子 图 才 合 适 ， 因 
为 谱 平分 法 只 能 将 图 分 成 两 个 子 图 ， 或 者 说 偶数 个 子 图 ， 且 不 知 何 时 停止。 


2. 第 二 类 是 基于 模块 度 优化 的 社团 发 现 算法 


基于 模块 度 优化 的 社团 发 现 算法 是 目前 研究 最 多 的 一 类 算法 。 其 思想 是 将 社团 发 现 问题 定义 
为 优化 问题 , 然后 搜索 目标 值 最 优 的 社团 结构 。 由 Newman 等 首先 提出 的 模块 度 Q 值 是 目前 使 用 
最 广泛 的 优化 目标 ， 该 指标 通过 比较 真实 网 络 中 各 社团 的 边 密度 和 随机 网 络 中 对 应 子 图 的 边 密度 
之 间 的 差异 来 度量 社团 结构 的 显著 性 。 模 块 度 优化 算法 根据 社团 发 现时 的 计算 顺序 大 致 可 分 为 三 
类 。 

基于 模块 度 优化 的 算法 中 第 一 类 算法 采用 聚合 思想 , 自 底 向 上 进行 , 典型 代表 算法 有 Newman 
快速 算法 和 CNM 算法 等 。Newman 快速 算法 将 每 个 节点 看 作 是 一 个 社团 ， 每 次 迭代 选择 产生 最 
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大 Q 值 的 两 个 社团 合并 ， 直 至 整个 网 络 融合 成 一 个 社团 。 整 个 过 程 可 表示 成 一 个 树 状 图 ， 从 中 选 
择 Q 值 最 大 的 层次 划分 得 到 最 终 的 社团 结构 。 该 算法 的 总 体 时 间 复 杂 度 为 O(m(m+n))。CNM 算 
法 是 基于 Newman 快速 算法 ， 并 采用 了 数据 结构 “ 堆 ” 来 对 网 络 的 模块 化 度 进行 计算 和 更 新 ， 其 
复杂 度 只 有 O(nlog? n) 。 在 很 多 不 同 的 现实 网 络 中 ， 凝 聚 算法 的 确 已 经 得 到 了 广泛 的 应 用 ， 但 


这 并 不 能 掩饰 这 类 算法 所 存在 的 问题 。 首 先 ， 在 一 些 应 用 中 ， 即 使 已 经 知道 了 社区 数目 ， 却 并 没 
有 得 到 正确 的 社区 结构 。 其 次 ， 凝 聚 算法 倾向 于 找到 社区 的 核心 ， 而 忽略 社区 的 周边 。 

基于 模块 度 优化 的 算法 中 第 二 类 算法 主要 采用 分 裂 的 思想 ， 自 项 向 下 进行 。 例 如 ，Newman 
最 早 提出 的 GN 算法 就 属于 这 类 算法 ， 算 法 通过 依次 删 去 网 络 中 边 介 数 〈 即 网 络 中 经 过 每 条 边 的 
最 短路 径 数 ) 最 大 的 边 ， 直 至 每 个 节点 单独 退化 为 社团 ， 然 后 从 整个 删 边 过 程 中 选取 对 应 最 大 Q 
值 时 的 结果 。 该 算法 复杂 度 较 高 ， 为 O(P ) 。GN 算法 尽管 有 很 大 的 突破 ， 但 是 仍然 有 着 它 自身 
的 缺陷 ， 即 对 于 网 络 的 社区 结构 ， 它 并 没有 在 量 方面 给 出 合理 的 定义 。 也 就 是 说 ， 它 不 能 直接 从 
网 络 的 拓扑 结构 判断 它 所 求 的 社区 是 否 合 理 ， 即 不 能 断定 所 得 到 的 社区 就 是 实际 网 络 中 的 社区 结 
构 ， 因 此 经 常 需要 一 些 额外 的 信息 来 辅助 判断 所 得 社区 结构 是 否 具有 实际 的 意义 。 此 外 ， 在 社团 
数目 不 清楚 的 情况 下 ，GN 算法 同样 不 知道 分 解 应 该 进行 到 哪 步 停止 才 合理 。 

基于 模块 度 优化 的 算法 中 第 三 类 算法 是 模拟 退火 法 ， 模 拟 退 火 法 被 用 在 很 多 领域 ， 它 的 基本 
思想 是 将 解 空间 分 为 若干 个 状态 ， 定 义 一 个 全 局 函数 ， 通 过 状态 的 转换 ， 来 获得 全 局 函数 值 的 增 
量 ,或 者 负 增 量 (也 称 为 噪声 )， 通 过 若干 步骤 的 转换 ， 全 局 函数 获得 一 个 全 局 最 优 值 ， 其 中 噪声 
的 引入 是 为 了 避免 全 局 函数 只 取得 局 部 最 优 解 。 应 用 在 社团 发 现 中 ， 它 的 具体 实现 中 ， 状 态 的 转 
换 分 为 局 部 转换 和 全 局 转换 ， 局 部 转换 指 的 是 将 某 个 结 点 转移 到 另 一 个 社团 ， 全 局 转换 指 的 是 两 
个 社团 的 合并 或 者 将 一 个 社团 分 成 多 个 社团 。 一 种 标准 的 方法 是 同时 结合 了 局 部 转换 和 全 局 转换 
的 方法 ， 模 拟 退 火 方法 计算 复杂 度 较 高 ， 但 获得 的 社团 划分 结果 较 准确 ， 适 合 规模 较 小 的 网 络 。 

总 的 来 说 ， 模 块 度 优化 算法 是 目前 应 用 最 为 广泛 的 一 类 算法 ， 但 是 在 具体 分 析 中 ， 很 难 确定 
-种 合理 的 优化 目标 ， 使 得 分 析 结 果 难 以 反映 真实 的 社团 结构 ， 尤 其 是 分 析 大 规模 复杂 网 络 时 ， 
搜索 空间 非常 大 ， 使 得 许多 模块 度 近似 优化 算法 的 结果 变 得 更 不 可 靠 。 

3. 第 三 类 是 动态 方法 

动态 方法 主要 分 为 三 类 : 自 旋 模 型 法 、 随 机 行走 法 和 同步 法 。1984 年 Fu 和 Anderson 就 提 
出 了 利用 自 旋 模 型 分 割 图 的 方法 ，Reichardt 将 自 旋 玻 璃 的 Potts 模型 引入 到 了 确定 网 络 社团 最 优 
划分 的 问题 上 ， 通 过 构造 与 网 络 连接 相关 的 Hamilton 函数 ， 把 社团 划分 与 寻找 系统 的 基态 结合 
起 来 形成 自 旋 模型 法 ， 随 机 行走 算法 由 Hughes 提出 ， 主 要 思想 是 从 某 个 结 点 出 发 ， 下 一 个 结 点 
的 选择 是 随机 的 。 随 机 行走 算法 被 用 在 社团 发 现 中 ， 是 由 于 社团 内 部 连接 相对 紧密 ， 从 而 随机 行 
走 的 路 径 更 多 在 社团 内 部 。 从 而 可 以 用 随机 行走 的 规则 来 发 现 社团 ， 一 个 由 相互 作用 的 结 点 组 成 
的 网 络 中 ， 属 于 同一 社团 的 结 点 之 间 由 于 连接 紧密 ， 相 互 作 用 较 强 ， 因 而 在 状态 更 替 中 ， 能 够 更 
快 地 达到 同步 状态 ， 因 此 可 以 利用 这 个 性 质 ， 通 过 观察 结 点 的 状态 同步 状况 ， 来 反 推出 网 络 中 的 
社团 结构 情况 形成 同步 法 。 
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第 8 章 采用 Map/Reduce 进行 大 规模 社交 网 络 社团 发 现 


4. 第 四 类 是 重 寺 社团 发 现 算法 

重 登 社团 发 现 更 符合 真实 世界 的 社团 组 织 规律 ， 成 为 近 几 年 社团 发 现 研究 的 新 热点 ， 涌 现 出 
许多 新 颖 算法 。 重合 社 团 发 现 算法 大 致 可 以 分 为 三 类 。 

重 营 社团 发 现 算法 中 第 一 类 是 基于 团 渗透 改进 的 重合 社团 发 现 算法 , 由 Palla 等 提出 的 团 渗透 
算法 是 首 个 能 够 发 现 重 营 社 团 的 算法 ， 该 类 算法 认为 社团 是 由 一 系列 相互 可 达 的 k- 团 ( 即 大 小 为 
k 的 完全 子 图 ) 组 成 的 ， 即 k- 社 团 。 算 法 通过 合并 相 邻 的 k- 团 来 实现 社团 发 现 ， 而 那些 处 于 多 个 
k- 社 团 中 的 节点 即 是 社团 的 “ 重 登 ”部 分 。 

重 受 社团 发 现 算法 中 的 第 二 类 是 基于 模糊 聚 类 的 重 营 社团 发 现 算法 ， 可 将 重 肝 社团 发 现 归 于 
传统 模糊 聚 类 问题 加 以 解决 ， 以 计算 节点 到 社团 的 模糊 隶属 度 来 揭示 节点 的 社团 关系 。 这 类 算法 
通常 从 构建 节点 距离 出 发 ， 再 结合 传统 模糊 聚 类 求解 隶属 度 和 矩阵 。 值 得 一 提 的 是 ， 此 类 算法 的 关 
键 在 于 所 构建 的 距离 矩阵 ， 采 用 何 种 节点 距离 更 符合 实际 情况 在 具体 应 用 中 是 一 个 值得 探索 的 问 
题 。 











重 受 社团 发 现 算法 中 第 三 类 是 基于 边 聚 类 的 重 芝 社团 发 现 ， 以 往 社团 发 现 算法 的 研究 均 以 节 
点 为 对 象 ， 考 虑 如 何 通过 划分 、 聚 类 、 优 化 等 技术 将 节点 归 为 重 登 或 不 重合 的 社团 。Evans 等 和 
Ahn 等 分 别 发 表 了 以 边 为 研究 对 象 来 划分 社团 的 文献 。 虽 然 节点 属于 多 重 社团 ， 但 边 通常 只 对 应 
某 一 特定 类 型 的 交互 真实 网 络 中 的 某 种 性 质 或 功能 )。 因 此 ， 以 边 为 对 象 使 得 划分 的 结果 更 能 真 
实地 反映 节点 在 复杂 网 络 中 的 角色 或 功能 。 

但 许多 社团 发 现 算法 存在 复杂 度 较 高 ， 无 法 处 理 大 规模 网 络 结构 ， 社 团 发 现 结果 不 稳定 等 问 
题 。 本 章 正 是 围绕 上 述 问题 展开 ， 实 现 了 两 种 可 并 行 化 的 社团 发 现 方法 ， 使 并 行 化 的 RMS 算法 
和 并 行 化 的 AP 算法 能 够 有 效 处 理 大 规模 网 络 ， 并 且 社团 划分 质量 较 好 。 





相关 理论 和 技术 


8.2.1 社团 结构 


通常 ， 复 杂 网 络 中 的 社区 由 相似 属性 的 个 体 组 成 ， 或 者 说 它们 在 网 络 中 担任 了 相近 的 角色 。 
现实 社会 中 存在 大 量 关 于 这 种 群体 的 实际 样 例 ， 例 如 家 庭 、 同 事 、 班 级 同学 、 朋 友 等 ， 这 些 群 体 
在 某 种 意义 上 可 以 看 作 是 社区 。 互 联网 的 飞速 发 展 使 得 各 种 互联 网 应 用 层出不穷 , 特别 是 Web 2.0 
的 兴起 ， 在 这 些 互联 网 应 用 中 许多 具有 相同 爱好 或 者 具有 相似 属性 〈 如 同学 关系 ) 的 用 户 会 形成 
特定 的 群体 ， 体 现 出 “人 以 群 分 ”的 特点 ， 这 些 互 联网 中 的 群体 与 传统 的 群体 相 比 甚至 超越 了 地 
域 的 限制 ， 更 具 包 容 性 和 开放 性 。 社区 具有 内 部 联系 紧密 、 社 区 之 间 联 系 相对 稀疏 的 特征 。 

当前 普遍 认为 复杂 网 络 中 的 社区 结构 是 重 辣 的 ， 即 网 络 中 存在 同时 属于 多 个 社区 的 节点 ， 这 
就 是 所 谓 的 重 琶 社区 。 由 于 人 们 往往 具有 多 种 兴趣 爱好 ， 很 多 用 户 会 属于 多 个 社区 。 再 比如 每 个 
人 具有 多 种 社会 属性 ， 因 此 而 属于 多 个 不 同 的 群体 ， 最 普遍 的 是 同学 群体 、 同 事 群 体 、 家 庭 群 体 
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等 ， 这 也 是 重 车 社区 的 一 种 体现 。 





8.2.2 ”相关 社团 发 现 算法 


1. 派系 过 滤 算法 


派系 过 滤 算 法 〈Clique Percolation Method，CPM) 是 比较 早 的 可 以 发 现 重 登 社区 结构 的 社区 
发 现 算法 ， 由 Gergely Palla 等 人 在 2005 年 提出 。Gergely Palla 等 人 认为 社区 可 以 看 做 是 由 一 些 相 
互 连 通 的 完全 子 图 〈 即 clique 或 称 派系 ) 组 成 的 集合 。k-clique 表示 完全 子 图 的 节点 数目 为 k。 如 
果 两 个 k-clique 有 -1 个 公共 节点 ， 则 称 这 两 个 k-clique 是 相 邻 的 。 

通过 k-clique 的 定义 可 以 知道 ， 在 一 个 k-clique 中 任意 选择 t(0<1 志 及 个 节点 ,这 t 个 节点 也 会 
形成 一 个 完全 子 图 。 所 以 在 CPM 算法 中 只 需要 寻找 各 个 最 大 的 完全 子 图 ， 之 后 可 以 通过 构造 一 
个 clique 之 间 的 和 矩阵， 再 根据 参数 k 和 这 个 矩阵 来 寻找 相应 clique 产生 的 连通 子 图 。 

CPM 算法 的 主要 过 程 如 下 : 


(1) 找 出 网 络 中 的 clique。 

(2) 根据 找 出 的 所 有 clique 构造 一 个 由 clique 之 间 的 关系 形成 的 矩阵 〈clique-clique overlap 
matrix )。 该 矩阵 的 每 一 行 和 每 一 列 对 应 一 个 clique， 和 拢 阵 非 对 角 线 上 的 元 素 表示 对 应 两 个 clique 
的 公共 节点 数目 ， 对 角 线 上 的 元 素 表 示 对 应 clique 的 节点 数目 。 因 此 该 矩阵 是 对 称 的 。 

(3) 根据 参数 k， 将 第 (2) 步 获得 的 矩阵 中 对 角 线 上 元 素 小 于 k， 非 对 角 线 上 元 素 小 于 kec1l 
的 这 些 项 设置 为 0， 其 他 元 素 设置 为 1。 

(4) CPM 算法 认为 社区 是 由 连通 的 k-clique 组 成 的 子 图 。 根 据 第 〈3) 步 处 理 后 的 矩阵 ， 对 
角 线 为 1 对 应 的 clique 表示 满足 条 件 的 clique， 非 对 角 线 为 1 表示 相应 两 个 clique 的 相 邻 关系 ， 
因此 通过 这 个 矩阵 可 以 方便 地 得 到 各 个 连通 部 分 ， 也 就 是 各 个 社区 。 


派系 过 滤 算 法 对 clique 相 邻 关系 的 要 求 很 高 ， 在 许多 网 络 上 的 社区 发 现 结果 模块 化 系数 并 不 
理想 。 并 且 派 系 过 滤 算法 的 复杂 度 较 高 ， 在 处 理 规 模 较 大 、 边 较为 稠密 的 网 络 时 效率 很 低 。 





x, 


2. EAGLE 算法 


EAGLE 算法 (agglomerativE hierarchieA clusterinG based on maximaL cliquE) 是 一 种 基于 合并 
相似 极 大 派系 的 层次 重 辣 社区 发 现 算法 ， 由 Shen 等 人 于 2009 年 提出 。 网 络 中 的 一 个 极 大 clique 
表示 该 clique 不 是 任何 其 他 clique 的 子 集 。EAGLE 与 Newman 快速 算法 类 似 ， 也 属于 凝聚 的 方 
法 ， 但 是 与 Newman 快速 算法 在 一 开始 每 个 节点 属于 单独 的 社区 不 同 的 是 ，EAGLE 算法 是 以 满 
足 条 件 的 clique 作为 单独 的 社区 。 

EAGLE 算法 的 主要 过 程 如 下 : 


(1) 找 出 网 络 中 的 所 有 极 大 k-clique。 忽 略 次 要 极 大 clique (subordinate maximal clique， 指 
该 clique 中 的 节点 在 一 些 其 他 更 大 的 clique 中 已 经 出 现 ， 但 是 该 clique 并 不 是 其 他 任何 clique 的 
子 集 )。 余 下 的 clique 和 次 要 节点 (subordinate vertex， 指 因 舍弃 节点 数 未 达到 k 的 clique 而 产生 
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的 那些 不 在 任何 clique 当中 的 孤立 节点 ) 都 被 当 作 初 始 社区 。 并 计算 每 个 社区 对 之 间 的 相似 度 。 
(2) 选择 相似 度 最 大 的 两 个 社区 进行 合并 ， 并 计算 这 个 新 社区 和 其 他 社区 之 间 的 相似 度 。 
(3) 重复 步骤 (2) 直到 只 剩 下 一 个 社区 。 
EAGLE 算法 的 复杂 度 很 高 ， 第 一 过 程 〈 合 并 社区 ) 的 时 间 复 杂 度 为 O (m+(htms)， 其 中 必 
是 网 络 的 节点 数 ，s 是 极 大 clique 的 数目 ，h 是 相 邻 的 极 大 clique 对 的 数量 。 第 二 过 程 〈 从 树 状 图 
中 选择 一 层 作 为 社区 结果 ) 的 时 间 复 杂 度 为 O Crs)。 并 且 还 要 算 上 找 出 网 络 中 所 有 极 大 clique 
的 时 间 。 因 此 EAGLE 难以 在 大 规模 的 真实 网 络 上 应 用 。 


3. GCE 算法 


GCE 算法 〈Greedy Clique Expansion) 也 是 一 种 通过 贪心 优化 局 部 指标 来 获得 高 度 重 登 的 社 
区 结构 的 社区 发 现 算法 ， 由 Lee 等 人 于 2010 年 提出 。 

由 于 GCE 算法 把 极 大 clique 作为 初始 社区 种 子 并 从 其 出 发 进行 扩展 , 不 可 避免 地 会 出 现 近 似 
重复 的 社区 ， 即 当前 扩展 的 社区 和 已 经 扩展 得 到 的 社区 基本 上 是 同一 个 社区 。 为 了 判断 两 个 社区 
是 否 是 重复 的 ， 首 先 定义 6 函数 为 两 个 社区 之 间 的 距离 : 


1Sns 1 
min(| S|,|S')) 


























6E(S,S')=1-— 式 (8-1) 
如 式 (8-1) 中 ，S 和 S” 是 两 个 社区 。 
给 定 一 组 社区 的 集合 W 和 一 个 社区 S，W 中 所 有 与 S 距离 小 于 & (一 般 取 0.4 能 取得 较 好 的 
结果 ) 的 社区 都 认为 是 S 的 重复 社区 。 
基于 此 ，GCE 算法 的 总 体 过 程 如 下 : 


(1) 找到 网 络 中 所 有 节点 数 不 小 于 k 的 极 大 clique， 作 为 社区 种 子 。 

(2) 选择 没有 进行 扩展 的 种 子 中 节点 数 最 多 的 种 子 ， 根 据 适 应 函数 进行 贪心 扩展 , 直到 加 入 
任何 节点 都 会 降低 适应 函数 的 值 ， 此 时 这 个 社区 记 作 C  。 

(3) 如 果 已 经 生成 并 被 接受 的 社区 中 存在 与 C 距离 小 于 & ， 则 认为 C' 与 已 有 社区 重复 ， 因 
此 放弃 C'; 否则 接受 C'。 

(4) 返回 步骤 (2) 继续 执行 ， 直 到 所 有 种 子 都 已 被 扩展 。 


GCE 算法 做 了 许多 工程 上 的 优化 ， 并 且 很 多 参数 都 是 经 验 值 ， 但 是 其 在 人 工 网 络 (LFR 
benchmark) 及 一 些 真实 网 络 上 效果 很 好 ， 而 且 效 率 很 高 ， 是 目前 较为 优秀 的 重 登 社区 发 现 算法 。 
尽管 GCE 算法 在 实现 时 做 了 尽 可 能 的 优化 ， 但 在 处 理 大 规模 并 且 稠密 的 网 络 时 仍 会 导致 扩展 的 
过 程 很 慢 ， 成 为 算法 效率 的 瓶颈 。 


4.LPA 算法 


节点 所 属 的 社区 和 其 邻接 点 有 很 大 的 关系 ， 一 种 简单 的 想法 是 每 个 节点 按照 其 邻接 点 的 社区 
情况 来 选择 所 要 加 入 的 社区 。Raghavan 等 人 据 此 提出 了 一 种 基于 标签 传播 (label propagation 
algorithm，LPA) 的 社区 发 现 算法 。 





Xx 
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LPA 算法 的 主要 过 程 如 下 : 


(1) 初始 化 ， 给 每 个 节点 分 配 一 个 唯一 的 标签 。 对 于 节点 x，C.(0)=x。 

(2) 设置 全 1。 

(3) 将 网 络 中 的 节点 随机 排序 ， 假 设 顺序 为 X。 

(4) 对 义 中 的 每 个 节点 x, 将 x 的 标签 设置 为 新 的 标签 。C:(D) =f(Cs DCs (7D,…Cs (1-D))， 
f 函数 返回 节点 x 的 邻接 点 中 出 现 次 数 最 多 的 标签 ， 如果 这 样 的 标签 存在 多 个 ， 则 从 出 现 次 数 最 
多 的 标签 中 随机 选取 一 个 。 

(5) 如 果 每 个 节点 的 标签 都 与 其 邻接 点 中 出 现 次 数 最 多 的 标签 相同 ， 则 算法 结束 ; 否则 设置 
t=ttl， 返 回 步骤 (3) 继续 执行 。 


需要 指出 的 是 ， 这 里 的 上 函数 为 异步 传播 方式 。 异 步 方式 (asynchronous) 指 当 前 迭代 过 程 中 
节点 让 的 新 标签 既 和 节点 的 邻接 点 在 上 一 轮 迭 代 过 程 中 的 标签 相关 〈 如 果 这 个 邻接 点 该 轮 迭 代 
过 程 尚 未 更 新 标签 ) 也 和 节点 i 的 邻接 点 在 该 欠 代 过 程 中 的 标签 相关 〈 如 果 这 个 邻接 点 该 论 迭 代 
过 程 已 经 更 新 了 标签 )。 同 步 方式 (synchronous) 只 和 上 一 轮 欠 代 相 关 。 异 步 方式 在 处 理 二 部 图 
和 星 形 图 时 不 存在 振荡 问题 ， 并 且 异 步 方 式 相 比 同步 方式 需要 更 少 的 迭代 次 数 就 能 趋向 平衡 而 使 
算法 可 以 终止 ， 具 有 更 好 的 性 能 。 

LPA 算法 的 时 间 复杂 度 为 Opxz) ， 其 中 k 是 欠 代 次 数 ，m 是 网 络 的 边 数 ， 因 此 其 时 间 复杂 度 
接近 线性 ， 效 率 很 高 ， 能 处 理 很 大 规模 的 网 络 ， 并 且 获 得 的 社区 结构 的 模块 化 系数 也 较 理想 。 但 
同时 由 于 LPA 算法 有 很 多 随机 性 因素 , 使 其 结果 不 能 稳定 , 每 次 产生 的 社区 结构 会 存在 一 定 差异 。 


5. COPRA 算法 


Steve 提出 了 一 种 扩展 的 LPA 算法 ， 能 够 发 现 重合 社 区 结构 ， 即 COPRA 算法 (Community 
Overlap PRopagation Algorithm )。COPRA 算法 通过 让 每 个 节点 可 以 携带 多 个 标签 来 支持 重合 社区 
结构 ， 并 且 针 对 每 个 标签 有 一 个 隶属 系数 〈belonging coefficient)， 为 了 避免 传播 过 程 结束 所 有 节 
点 都 带 有 相同 的 标签 集合 ， 在 每 轮 和 迭 代 结 束 后 ， 删 除 隶 属 系数 小 于 1/v 〈v 是 算法 的 输入 参数 ， 表 
示 每 个 节点 最 多 属于 的 社区 个 数 ) 的 标签 。 如 果 所 有 隶属 系数 均 小 于 1/v， 则 只 保留 隶属 系数 最 
大 的 标签 ， 删 除 所 有 其 他 标签 ， 如 果 存 在 多 个 最 大 的 隶属 系数 ， 则 随机 选择 一 个 对 应 的 标签 。 然 
后 对 这 些 保 留 的 标签 对 应 的 隶属 系数 进行 归 一 化 。 

因此 COPRA 算法 需要 指定 v 参数 ， 此 参数 对 社区 发 现 的 结果 影响 很 大 ， 一 般 面 对 真实 网 络 
我 们 又 无 从 知道 每 个 节点 最 多 属于 的 社区 个 数 ， 所 以 COPRA 算法 有 一 定局 限 性 。 

6. 划分 聚 类 法 

给 定 一 个 包含 n 个 “数据 点 ”的 数据 集 ， 这 些 数据 点 可 以 是 坐标 点 ， 或 一 张 网 页 ， 或 一 张 图 
片 。 把 这 mn 个 数据 点 划分 构造 成 k 个 分 组 ， 每 一 个 分 组 代表 一 个 聚 类。 而且 k 个 分 组 满足 以 下 条 
件 :(0 每 一 个 分 组 至 少 包含 一 个 数据 点 ; (2) 每 两 个 组 别 之 间 没 有 重复 的 数据 点 ， 即 每 一 个 数据 点 
属于 且 仅 属于 一 个 分 组 。 划 分 聚 类 法 在 初始 阶段 要 设 定好 聚 类 的 数目 k， 通 过 不 断 地 一 次 次 帮 代 
优化 分 组 的 情况 ， 使 得 每 一 次 迭代 后 的 分 组 的 结果 都 比 前 一 次 迭代 的 聚 类 结果 要 好 。 聚 类 结果 好 
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的 标准 是 : 同一 个 分 组 中 的 数据 点 的 相似 性 越 大 越 好 ， 而 不 同 分 组 的 数据 点 相似 性 越 小 越 好 。 

K-means 法 就 是 划分 聚 类 法 的 典型 代表 。K-means 聚 类 算法 思路 比较 简单 ， 但 也 是 十 分 实用 
的 一 个 算法 ， 广 泛 应 用 于 各 学 科 和 工业 生产 上 。K-means 算法 早 在 1967 年 提出 ， 先 来 描述 -下 这 
个 简单 的 算法 。K-means 一 开始 先 选择 k 个 初始 类 簇 中 心 (centroid)，k 是 用 户 一 开始 指定 的 一 个 
参数 ， 也 就 是 用 户 想 要 的 聚 类 数目 。 每 次 迭代 中 ， 每 一 个 数据 点 都 被 赋 到 最 近 的 类 簇 中 心中 ， 等 
所 有 的 数据 点 都 赋 给 类 簇 中 心 之 后 ， 重 新 更 新 每 一 个 类 簇 (cluster) 的 新 的 类 簇 中 心 。 不 断 地 过 
代 直 到 没有 数据 点 改变 它 所 属 的 类 簇 ， 或 者 等 价 于 直到 每 个 类 簇 中 心 保持 不 变 。 

初始 化 选择 三 个 点 作为 类 簇 中 心 ， 然 后 每 一 个 数据 点 根据 和 类 簇 中心 的 距离 ， 选 择 最 近 的 一 
个 赋 给 类 簇 中 心 。 这 里 ， 我 们 用 坐标 的 平均 值 mean》 作 为 类 簇 中 心 。 在 每 一 个 数据 点 都 赋 给 类 
簇 中 心 之 后 ， 再 更 新 类 簇 中 心 的 坐标 。 下 一 步 ， 数 据点 就 重新 赋 给 新 的 类 簇 中 心 ， 类 簇 中 心 再 重 
新 更 新 。 每 一 个 小 图 代表 其 中 的 一 次 运 代 的 过 程 ，K-means 最 后 结束 在 迭代 8 次 之 后 ， 因 为 类 入 
中 心 不 再 变化 ， 这 样 聚 类 结果 就 出 来 了 ， 这 些 聚 类 结果 (clusters〉 由 类 簇 中心 指 示 着 。 把 数据 点 
赋 给 与 它 最 近 的 类 簇 中 心 , 需要 一 个 衡量 相似 度 的 方法 来 表示 “最 近 ”。 网 氏 距 离 (Eucliden distance: 
万 ) 是 欧 氏 空间 中 数据 点 常用 的 相似 度 衡量 方法 ，cosine 距离 (cosine distance) 则 常用 于 文本 图 
像 间 的 距离 计算 。 当 然 ， 除 此 之 外 ， 还 有 其 他 几 种 描述 相似 性 距离 的 方法 ， 比 如 曼哈顿 距离 
《Manhattan distance: 五 ) 也 可 以 描述 欧 氏 空间 中 数据 点 的 距离 ， 而 Jaccard 方法 也 常 应 用 于 文本 
的 距离 计算 。 

7. 层次 聚 类 法 

给 定 一 个 数据 集 ， 层 次 聚 类 法 要 对 这 个 数据 集 进 行 层 次 性 的 分 解 或 者 层次 性 的 聚合 ， 直 到 满 
足 某 种 条 件 为 止 。 具体 又 可 以 分 成 两 类 ， 一 类 我 们 称 之 为 “ 自 底 向 上 ”通过 慢 慢 合并 类 簇 达 到 聚 
类 效果 ; 一 类 我 们 称 之 为 “ 自 项 向 下 ”通过 慢 慢 分 裂 类 簇 达到 聚 类 效果 。 在 “ 自 底 向 上 ”方法 中 ， 
初始 化 时 每 一 个 数据 点 都 代表 一 个 类 禾 ， 在 接 下 来 的 迭代 中 ， 如果 有 两 个 类 簇 间 足 够 相似 , 那么 ， 


我 们 就 把 这 两 个 类 簇 合成 一 个 类 簇 ， 直 到 所 有 的 类 簇 不 再 变化 。 
怎样 判别 两 个 类 簇 是 否 足够 相似 ， 要 给 出 一 个 衡量 类 簇 之 间距 离 的 方法 。 定 义 点 i 和 点 j 间 


的 相似 值 S; ， 类 簇 cl 和 类 簇 c2 之 间 的 相似 值 为 Scl,c2)， 则 计算 S(cl,c2) 的 简单 方法 有 三 种 : 
(1) 两 个 类 簇 间 数 据点 的 最 小 相似 值 。S(cl,c2)=min $; ，ie cl,.j sc2 。 如 果 要 求 两 个 类 簇 间 
的 任意 两 个 点 都 比较 相似 ， 用 最 小 相似 值 比较 好 ， 缺 点 是 聚 成 的 类 别 较 多 。 
(2) 两 个 类 簇 间 数 据点 的 最 大 相似 值 。S(cl,c2)=max Sy ，ie cl 7 ec2 。 如 果 要 求 聚 成 的 类 簇 
比较 集中 ， 类 别 数 目 较 少 ， 用 最 大 相似 值 比较 好 ， 缺 点 是 聚 成 的 类 簇 之 间 可 能 存在 不 相关 的 点 。 


GG) 两 个 类 镶 间 数据 点 的 平均 相似 值 。S(ehcD = 地 邢 S, ，iecljec2。 


1 


8.2.3 ”Hadoop 分 布 计算 框架 
2004 年 ，Google 公司 的 Jeffrey Dean 和 Sanjay Ghemawat 发 表 了 一 篇 后 来 产生 了 重要 影响 的 
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关于 分 布 式 计算 的 论文 。 该 论文 提出 了 一 种 简单 有 效 的 分 布 式 计算 模型 ， 即 MapReduce。Hadoop 
开源 项 目 起 源 于 2005 年 , 是 Apache 的 一 个 子 项 目 。Hadoop 定位 为 可 靠 的 、 可 扩展 的 分 布 式 计算 
框架 , 目前 已 有 Hadoop Common、HDFS、MapReduce、Cassandra、HBase 等 多 个 子 项 目 。 Hadoop 
Common 包含 其 他 子 项 目 使 用 到 的 公共 库 。HDFS 是 分 布 式 文件 系统 ， 用 于 支持 分 布 式 计算 环境 
中 的 数据 存储 和 读 写 。 MapReduce 即 是 对 Google 提出 的 分 布 式 计算 模型 MapReduce 的 开源 实现 。 
目前 Hadoop 已 经 发 展 成 为 一 个 较为 完善 的 分 布 式 计算 框架 ， 并 已 被 广泛 使 用 。 

MapReduce 是 Google 的 一 项 重要 技术 ， 它 是 一 个 编程 模型 ， 用 于 处 理 海量 数据 。 对 于 海量 
数据 ， 通 常 采用 的 处 理 方法 是 并 行 计算 。 对 许多 开发 人 员 来 说 ， 并 行 计算 还 是 一 个 比较 遥远 的 概 
念 ， 并 且 不 易 实 施 。MapReduce 是 一 种 简化 了 的 并 行 计算 的 编程 模型 ， 它 极 大 地 降低 了 并 行 计算 
的 门槛 ， 可 以 让 那些 没有 多 少 并 行 计算 经 验 的 开发 人 员 开发 并 行 应 用 。 简 单 地 说 ，MapReduce 是 

-种 简化 的 分 布 式 编程 模型 。MapReduce 的 运行 环境 能 够 解决 输入 数据 的 分 布 细节 ， 自 动 分 布 程 
序 到 一 个 由 普通 机 器 组 成 的 超大 集群 上 并 发 执行 ， 并 能 处 理 集群 中 节点 的 失效 ， 管 理 集群 内 部 机 
器 之 间 的 通信 请 求 .这 样 的 模型 允许 开发 人 员 不 需要 具备 详细 的 并 发 或 者 处 理 分 布 式 系统 的 经 验 ， 
就 可 以 处 理 超大 的 分 布 式 系统 的 资源 。 

在 MapReduce 中 ,数据 由 称 为 Mapper 的 相互 隔离 的 任务 进行 处 理 ，Mapper 的 输出 作为 另外 

-个 称 为 Reducer 的 任务 的 输入 ， 由 Reducer 处 理 后 产生 最 终结 果 。MapReduce 计算 的 输入 是 一 
个 键 值 对 的 数据 集合 , 在 Map 阶段 , MapReduce 的 运行 环境 将 输入 数据 集合 拆 分 为 大 量 的 数据 片 
段 ， 然 后 将 每 一 个 数据 片段 分 配给 一 个 Map 任务 。MapReduce 运行 环境 负责 调度 这 些 Map 任务 
到 集群 中 的 各 个 节点 去 运行 。 每 个 Map 任务 将 其 分 配 到 的 数据 集合 经 过 计算 产生 中 间 结 果 , 也 即 
对 于 每 一 个 输入 键 值 对 <kl,vl>，Map 任务 会 调用 用 户 定义 的 Map 函数 进行 处 理 , 产生 不 同 的 键 值 
对 <k2,v2> 的 集合 。 然 后 ，MapReduce 运行 环境 会 对 中 间 结 果 进 行 排序 处 理 产生 一 个 新 的 键 值 对 
<k2,v2*> 集 合 ， 相 同 键 的 值 被 归纳 在 一 起 ， 并 将 新 的 键 值 对 集合 划分 出 和 Reduce 任务 数量 相同 的 
片段 数 。 在 Reduce 过 程 中 ， 每 个 Reduce 任务 将 分 配 到 的 新 的 键 值 对 <k2,v2*> 集 合作 为 输入 ， 对 
于 每 一 个 键 值 对 调用 用 户 定义 的 Reduce 函数 ， 并 产生 新 的 输出 结果 键 值 对 <k3,v3>。 

Hadoop MapReduee 分 布 式 计算 框架 属于 主 从 结构 。Hadoop 中 存在 一 个 作为 控制 节点 的 
JobTracker， 用 于 调度 和 管理 其 他 TaskTracker。JobTracker 可 以 运行 于 集群 中 任 一 台 计 算 机 上 。 
TaskTracker 负责 执行 任务 ， 必 须 运 行 于 DataNode 上 ， 因 此 DataNode 既是 数据 存储 结 点 ， 也 是 计 
算 结 点 。JobTracker 将 Map 任务 和 Reduce 任务 分 发 给 空闲 的 TaskTracker， 让 这 些 任务 并 行 运行 ， 
并 负责 监控 任务 的 运行 情况 。 如 果 某 一 个 TaskTracker 出 故障 了 ，JobTracker 会 将 其 负责 的 任务 转 
交 给 另 一 个 空闲 的 TaskTracker 重新 运行 。 

MapReduce 是 构建 在 Hadoop 分 布 式 文件 系统 HDFS 上 的 大 规模 数据 处 理 计 算 框 架 ， 基 于 
MapReduce 模型 的 应 用 程序 能 够 运行 在 上 千 个 商用 机 器 组 成 的 大 型 集群 上 ， 并 以 一 种 高 可 靠 、 高 
容错 的 方式 并 行 处 理工 级 别 的 数据 集 。MapReduce 计算 模型 将 运行 于 大 规模 集群 上 的 并 行 计算 抽 
象 为 两 个 函数 Map 和 Reduce。 适 合用 MapReduce 模型 进行 处 理 的 数据 集 (或 任务 ) 有 一 个 基本 
要 求 : 待 处 理 的 数据 集 可 以 分 解 为 许多 小 的 数据 集 ， 而 且 每 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 
理 。 








图 8.1 说 明了 采用 MapReduce 处 理 大 数据 集 的 过 程 ， 首 先 将 大 数据 集 分 解 为 小 数据 集 ， 每 个 
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(或 若干 个 ) 数据 集 分 别 由 集群 中 的 一 个 结 点 进行 处 理 (Map ) 并 生成 中 间 结 果 ， 框 架 会 对 Map 
的 输出 先进 行 排序 ， 然 后 这 些 中 间 结 果 又 由 大 量 的 结 点 进行 合并 Reduce )， 形 成 最 终结 果 。 


User 
Program 


(1) fork . 


(Diok Wfok 


和 本 






(6) write 






| we | 

file 0 

区 
file 1 





ce | 


Input Map Intermediate files Reduce Output 
files phase (on local disks) phase files 


图 8.1 MapRecuce 计算 模型 


HDFS 的 底层 实现 是 把 文件 切割 成 块 (Block), 这 些 Block 分 散 地 存储 于 不 同 的 DataNode 上 ， 
每 个 Block 还 可 以 复制 数 份 存储 于 不 同 的 DataNode 上 ， 从 而 达到 容错 容 的 目的 。 

NameNode 是 整个 HDFS 的 核心 ， 它 通过 维护 一 些 数据 结构 ， 记 录 每 一 个 文件 被 切割 成 了 多 
少 个 Block、 这 些 Block 可 以 从 哪些 DataNode 中 获得 、 各 个 DataNode 的 状态 等 重要 信息 。 通 常 ， 
MapReduce 框架 和 分 布 式 文件 系统 HDFS 是 运行 在 一 组 相同 的 节点 上 的 ， 也 就 是 说 ， 计 算 节 点 和 
数据 存储 节点 通常 在 一 起 。 这 种 配置 允许 框架 在 那些 已 经 存 好 数据 的 节点 上 高 效 地 调度 任务 ， 可 
以 高 效 利 用 整个 集群 的 网 络 带 宽 。 

MapReduce 框架 由 一 个 单独 的 Master JobTracker 和 每 个 集群 节点 的 Slave TaskTracker 共同 组 
成 。Master 负责 调度 构成 一 个 作业 的 所 有 任务 ， 这 些 任务 分 布 在 不 同 的 Slave 上 ，Master 监控 它 
们 的 执行 ， 重 新 执行 已 经 失败 的 任务 。 而 Slave 仅 负责 执行 由 Master 指派 的 任务 。 计 算 模型 的 核 
心 是 Map 和 Reduce 两 个 函数 ， 这 两 个 函数 由 用 户 自行 实现 ， 其 主要 功能 是 按 一 定 的 映射 规则 将 
输入 的 <key, value> 对 转换 成 男 一 个 或 一 批 <key, value> 对 输出 ， 如 表 8.1 所 示 。 


311 


表 8.1 MapReduce 函数 说 明 








函数 。 | 输入 输出 说 明 
1 将 小 数据 集 进一步 解析 成 一 批 <key,value> 对 , 输入 Map 
本 ee i ws。 | 本数 中 进行 处 理 
里 skK2v>) | > 每 一 个 输入 的 <kLvl> 会 输出 - 批 2v2%。 <k2,v2> 是 
计算 的 中 间 结果 





输入 的 中 间 结 果 <k2,List(v2)> 中 的 List(v2) 表示 是 一 批 属 


List(v2 让 
Reduce “| <k2,List(v2> | <k3v3> 于 同一 个 k2 的 value 








把 原始 大 数据 集 切割 成 小 数据 集 时 ， 通 常 让 小 数据 集 小 于 或 等 于 HDFS 中 一 个 Block 的 大 
小 (默认 是 64MB)， 这 样 能 够 保证 一 个 小 数据 集 位 于 一 台 计 算 机 上 ， 便 于 本 地 计算 。 有 M 个 小 
数据 集 待 处 理 就 启动 M 个 Map 任务 (可 能 小 于 M 个 , 由 运行 参数 决定 》 注 意 这 M 个 Map 任 
务 分 布 于 N 个 节点 上 并 行 运行 ，Reduce 任务 的 数量 R 也 可 由 用 户 指定 。 

对 Map 的 中 间 结 果 先 做 Combine， 即 将 中 间 结 果 中 有 相同 key 的 <key, value> 对 合并 成 一 对 。 
Combine 的 过 程 与 Reduce 的 过 程 类 似 , 很 多 情况 下 可 以 直接 使 用 Reduce 函数 。 但 需要 注意 的 是 ， 
Combine 是 Map 任务 的 一 部 分 ， 在 执行 完 Map 函数 后 立即 执行 。Combine 能 够 减少 中 间 结 果 中 
<keyvalue> 对 的 数目 ， 进 而 减少 网 络 流量 。 把 Map 任务 输出 的 中 间 结 果 〈 即 做 完 Combine 后 已 排 
好 序 的 结果 ) 做 Partition， 按 key 的 范围 划分 成 R 份 〈R 是 预先 配置 的 Reduce 任务 的 个 数 )， 划 
分 时 通常 使 用 哈 希 函数 ， 如 hash (key) mod R， 这 样 可 以 保证 某 一 段 范围 内 的 key， 一 定 是 由 一 
个 Reduce 任务 来 处 理 , 可 以 简化 Reduce 的 过 程 。Map 任务 的 中 间 结 果 在 做 完 Combine 和 Partition 
之 后 ， 以 文件 形式 存 于 本 地 磁盘 。 存 放 中 间 结 果 文 件 的 TaskTracker 会 通知 主 控 JobTracker， 
JobTracker 再 通知 Reduce 任务 到 哪 一 个 DataNode 上 去 取 中 间 结 果 。 注 意 所 有 的 Map 任务 产生 
中 间 结 果 均 按 其 key 用 同一 个 Hash 函数 划分 成 了 R 份 ,R 个 Reduce 任务 各 自负 责 一 段 key 区 间 。 
每 个 Reduce 需要 向 多 个 Map 任务 结 点 取得 落 在 其 负责 的 key 区 间 内 的 中 间 结 果 ， 然 后 执行 
Reduce 函数 ， 形 成 一 个 最 终 的 结果 文件 。 








RMS 算法 的 并 行 化 实现 


8.3.1 RMS 算法 


在 社会 系统 、 科 技 系统 以 及 生物 系统 中 ， 许 多 个 体 都 是 一 个 紧密 相连 的 团体 中 的 一 部 分 。 所 
谓 的 紧密 团体 就 是 该 团体 里 的 个 体 倾向 于 经 常 在 一 起 ， 并 且 经 常 交 换 信 息 。 例 如 ， 一 个 家 庭 一 般 
都 是 住 在 一 起 ， 在 一 个 地 方 生活 ; 一 个 实验 室 的 成 员 常 常 在 一 起 研究 讨论 。 在 这 里 ， 我 们 引入 了 
agent 集合 ， 集 合 里 的 每 个 元 素 个 体 即 每 个 agent 都 代表 相应 网 络 中 的 一 个 节点 ， 并 且 可 以 在 一 个 
二 维 空间 中 移动 。 在 发 现 过 程 中 ， 每 个 agent 会 在 它 的 所 有 邻接 点 中 ， 以 一 个 可 变 概率 随机 地 挑 
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选 一 个 邻接 点 相应 的 agent 作为 目的 地 ， 从 自己 的 坐标 点 移动 到 该 目的 地 agent 所 在 的 坐标 点 。 直 
观 上 ， 我 们 不 难 理解 ， 如 果 节 点 属于 同一 个 社区 ， 则 它们 之 间 的 紧密 度 值 应 该 偏 高 ， 即 这 些 节点 
对 应 的 agent 之 间 应 该 是 紧密 相连 的 。 很 自然 地 ， 可 以 想象 这 些 移动 的 agent 在 移动 的 过 程 中 ， 
将 逐渐 形成 一 些 团体 。 并 且 这 些 紧密 相连 的 agent 最 终 将 聚集 在 二 维 空间 的 同一 个 坐标 点 。 

该 方法 通过 网 络 的 局 部 探索 来 寻找 每 个 节点 所 归属 的 自然 社区 。 在 此 过 程 中 ， 不 管 节点 是 否 
已 被 划分 到 某 个 社区 ， 它 都 会 被 多 次 访问 到 。 通 过 这 种 方式 ， 重 登 社区 能 很 容易 地 被 划分 出 来 。 
同时 通过 调节 社区 层次 结构 的 分 辨 率 ， 可 以 发 现 网 络 所 有 层次 下 的 社区 结构 。 

我 们 将 想 要 进行 分 析 的 网 络 看 作 是 一 个 简单 图 G, 其 有 n 个 顶点 和 m 条 边 。 图 G 的 邻接 矩阵 
是 4 ， 和 矩阵 中 的 元 素 a 代表 节点 1 和 j 之 间 的 关系 强度 。 特 别 地 ， 在 无 权 图 中 ， 如 果 i 和 j 是 邻 
接点 ， 则 a 等 于 1， 否则 等 于 0。 而 在 加 权 图 中 ，o 的 值 就 等 于 i 和 j 之 间 的 权重 值 。 邻 接 矩 
阵 对 角 线 上 的 元 素 无 定义 ， 为 了 方便 ， 均 将 值 设 为 0。 图 中 的 两 个 节点 是 邻接 点 意味 着 它们 之 间 
有 边 连 接 。 为 了 更 清楚 地 表达 RMS 算法 ， 我 们 使 用 下 标 来 区 分 agent 和 其 相应 的 节点 ， 例 如 ， 
代表 节点 i 对 应 的 agent。 

初始 状态 下 ， 网 络 中 的 每 个 节点 自己 形成 一 个 独立 的 社区 ， 即 初始 时 总 共有 n 个 社区 。 此 时 每 
个 节点 对 应 的 agent 所 处 的 坐标 也 是 不 同 的 。 即 n 个 节点 初始 时 有 n 个 社区 ,它们 对 应 的 agent 总 
共 也 处 于 n 个 不 同 的 坐标 点 。 网 络 中 的 每 个 agent 被 其 他 的 一 些 agent 吸引 ， 然 后 随机 地 选择 其 中 
的 一 个 agent 作为 目的 地 , 并 且 以 一 个 随机 移动 概率 从 自己 的 坐标 点 移动 到 目的 agent 所 在 的 坐标 点 。 
这 个 概率 的 值 与 社区 吸引 性 有 关 。 这 个 吸引 性 会 最 终 引 导 所 有 的 agent， 要 么 移动 到 新 的 坐标 点 ， 要 
么 继续 果 在 原来 的 坐标 点 保持 不 动 。 最 终 ， 这 些 随机 移动 的 agent 会 趋 于 一 个 稳定 状态 。 换 言 之, 大 
多 数 的 agent 最 终 会 停留 在 某 个 坐标 点 不 再 改变 , 而 agent 在 二 维 空间 的 分 布 情况 即 反映 了 网 络 社区 
最 终 的 划分 情况 〈 位 于 同一 坐标 点 的 agent， 它 们 对 应 的 节点 即 处 于 同一 社区 )。 


1. 初始 化 


给 网 络 中 的 每 个 节点 定义 一 个 相应 的 移动 agent， 然 后 根据 计算 紧密 度 和 矩阵 M， 初 始 时 每 个 
节点 形成 一 个 独立 的 社区 。 

将 社会 网 络 建 模 为 无 向 图 G=( 及 孔 ， 其 中 下 表示 网 络 中 节点 的 集合 ， 巨 表 网 络 中 边 的 集合 ， 
函数 r(v):V 一 六 表示 节点 v 的 邻接 点 集合 ，r(v)=fu|u eV 和 (wu)e EE} 紧密 度 矩 阵 M = (m5; )yygy 
定义 了 VV 中 节点 之 间 的 紧密 度 值 ， 利用 公式 (8-2) 计 算得 到 节点 i 和 节点 j 之 间 的 紧密 度 值 。 


m=1+|r() NTN) 式 (8-2) 





为 每 个 节点 构造 一 个 初始 社区 ， 首 先 定义 初始 社区 集合 R= {R,(),R(2).…}， 其 中 RD) 表示 
第 i 个 社区 ,初始 由 节点 i 构成 的 集合 ， 即 RG)= 知 ， 机 数 了 0G) 一 Ro(i)， 并 且 YieV ,为 i 指定 
一 个 全 局 唯一 的 社区 编号 ， 代 表 i 属于 该 社区 ， 令 I(i) 表示 i 的 社区 编号 值 。 


2. 随机 游 走 过 程 


执行 基于 社区 紧密 度 的 随机 游 走 策略 ， 需 要 对 VV 中 的 节点 进行 遍历 并 计算 ， 终 止 条 件 是 “G 中 的 
社区 总 个 数 为 1” 或 “V 中 所 有 的 节点 的 社区 编号 不 再 发 生变 化 ”。Vie VV， 一 次 计算 的 具体 过 程 为 : 
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首先 定义 RG)={R(AD1jer(i) 人 je R(A)} 表示 节点 i 的 邻接 节点 所 属 的 社区 集合 , 计算 R'(Gi) 
中 每 个 社区 对 i 的 社区 吸引 性 CA， 其 中 社区 R,(K) 对 i 的 社区 吸引 性 CA 采用 公式 (8-3) 得 到 : 
ms 2 mop { 
ser(DNRo (A) 0,per(DNRo(K) 
m 
0,peRo(k) 
其 中 1>0 是 多 尺度 参数 ， 也 称 为 分 辩 率 参数 。 调 节 + 的 取 值 ， 可 以 得 到 不 同 的 社区 划分 结构 ; 
根据 上 步 得 到 的 RG) 中 每 个 社区 对 的 社区 吸引 性 CA， 计 算 7 对 R'(i) 中 每 个 社区 的 随机 移动 概 
率 ， 比 较 得 到 的 所 有 随机 移动 概率 ，i 从 自己 所 处 的 社区 开始 往 随机 移动 概率 最 大 对 应 的 社区 移 
动 ， 更 改 i 所属 的 社区 号 1(i) ，i 对 社区 R,(K) 的 随机 移动 概率 采用 公式 (8-4) 得 到 : 
CA RK) 
2 CAli,R(e)) 
Rl(e)eR() 


RMS 算法 在 以 下 几 个 方面 不 同 于 其 他 的 社区 结构 发 现 算法 : 


(1) RMS 的 概率 与 agent 间 的 社区 吸引 性 〈Community Attraction，CA) 有 关 ， 并 且 这 个 
概率 在 随机 游 走 的 过 程 中 是 可 变 的 ， 即 是 自 适应 的 。 

(2) 传统 的 分 类 方法 , 最 大 的 不 足 是 如 果 节 点 在 早期 被 划分 进 了 不 合适 的 社区 ， 那么 这 些 节 
点 将 再 也 没有 机 会 被 划分 进 合适 的 社区 。 与 这 些 算法 相 比 ， RMS 算法 是 一 个 社区 发 现 方面 的 概 
率 算法 。 它 基于 随机 游 走 的 agent， 从 而 当 节 点 在 早期 不 小 心 被 划分 到 不 正确 的 社区 时 ， 仍 然 有 
机 会 在 后 期 离开 这 个 不 正确 的 社区 并 移动 到 正确 的 社区 。 

(3) 对 重 受 社区 的 研究 转换 为 了 对 不 稳定 节点 (其 相应 的 agent 不 是 处 于 固定 的 坐标 点 ) 的 
分 析 。 因 此 ， 选 择 统计 节点 在 不 同 社区 的 频 度 ， 并 利用 节点 的 社区 倾向 性 概念 ， 来 定量 地 分 析 社 
区 结构 的 这 种 重 半 特性 。 

(4) RMS 仅仅 需要 考虑 每 个 节点 的 邻接 点 。 该 方法 可 以 很 方便 地 扩展 到 有 向 网 络 〈 即 网 络 
中 的 边 是 有 方向 的 ) 和 加 权 网 络 〈 即 网 络 中 的 每 条 边 有 权重 ) 中 。 


CA(i,R(A)) = 式 (8-3) 














Pp(i,R(K)) = 式 (8-4) 





8.3.2 RMS 算法 在 MapReduce 上 的 实现 


1. 初始 化 节点 为 社区 


输入 文本 为 所 有 节点 与 邻接 点 的 对 应 ， 格 式 为 每 一 行 对 应 一 个 节点 的 邻接 信息 ， 由 节点 ID 
和 和 邻接 点 ID 组 成 ， 中 间 使 用 分 隔 符 分 隔 。 输 出 文本 为 输入 网 络 的 所 有 节点 的 初始 化 社区 信息 ， 
格式 为 每 一 行 对 应 一 个 节点 与 所 属 社区 的 对 应 。Map 函数 将 每 个 节点 划分 到 自己 节点 编号 的 社区 
中 ， 得 到 节点 与 所 属 社 区 的 对 应 ， Reduce 函数 直接 输出 输入 的 键 值 对 。 

Map 函数 的 输入 类 型 < IntWritable, IntWritable > 以 TextInputFormat 类 将 输入 文本 分 片 得 到 , 输 
入 <key,value> 中 key 为 节点 ID，value 为 节点 的 邻接 点 信息 。Map 函数 将 输入 的 节点 ID 划分 到 相 
同 节点 ID 的 社区 ID 中 ,输出 类 型 为 < IntPair,IntWritable> 中 的 <key,value>, 其 中 key 为 输入 key 节 


XxX, 
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点 ，value 为 输入 key 节点 的 所 属 社区 ID。 

Reduce 函数 的 输入 类 型 为 < IntPairIterable<IntWritable >>， 输 入 <keyvalues> 中 key 为 节点 。 
Reduce 函数 直接 输出 输入 的 键 值 对 ， 输 出 类 型 为 < IntPairIntWritable> 中 的 <keyvalue>， 其 中 key 
为 节点 ID，value 为 节点 key 所 属 的 社区 ID， 最 后 以 TextOutputFormat 类 输出 ， 得 到 输入 网 络 的 
每 个 节点 的 所 属 社区 信息 。 


2. 初始 化 紧密 度 和 矩阵 


输入 文本 为 所 有 节点 与 邻接 点 的 对 应 ， 格 式 为 每 一 行 对 应 一 个 节点 的 邻接 信息 ， 由 节点 ID 
和 邻接 点 ID 组 成 ， 中 间 使 用 分 隔 符 分 隔 。 输 出 文本 为 输入 网 络 的 紧密 度 和 矩阵 ， 格 式 为 每 一 行 对 
应 一 个 节点 与 其 他 节点 的 紧密 度 值 。Map 函数 解析 输入 文本 ， 得 到 节点 与 其 邻接 点 的 对 应 ， 根 据 
紧密 度 值 的 计算 公式 ， 计 算得 到 两 个 节点 之 间 的 紧密 度 值 ，Reduce 函数 直接 输出 输入 的 键 值 对 。 

Map 函数 的 输入 类 型 < IntWritable, IntWritable > 以 InitemInputFormat 类 ( 自 定义 类 ) 将 输入 文 
本 分 片 得 到 ， 输 入 <keyvalue> 中 key 为 节点 ID，value 为 节点 ID。Map 函数 将 读 入 节点 之 间 的 邻 
接 信息 ， 存 入 邻接 数组 ， 然 后 再 利用 函数 CM， 根 据 公 式 〈8-2) 计算 输入 key 节点 和 value 节点 
之 间 的 紧密 度 值 ， 输 出 类 型 为 < IntPair,IntWritable> 中 的 <key,value>， 其 中 key 为 输入 key 节点 和 
value 节点 组 成 的 紧密 度 矩 阵 中 的 位 置信 息 〈 自 定义 类 型 IntPair)，value 为 输入 key 节点 和 value 
节点 之 间 的 紧密 度 值 ， 初 始 化 紧密 度 和 矩阵 的 Map 函数 如 下 所 示 。 

初始 化 紧密 度 和 矩阵 的 Map 函数 : 

linjie=ReadLinjie () 

location=new IntPair(key,value) 

cmvalue=CM(linjie[key],1linjie[value]) 


context .write (location, cmvalue) 


Reduce 函数 的 输入 类 型 为 < IntPair,Iterable<IntWritable >>， 输 入 <key,values> 中 key 为 紧密 度 
和 矩阵 的 位 置 。Reduce 函数 直接 输出 输入 的 键 值 对 ， 输 出 类 型 为 < IntPair,IntWritable> 中 的 
<keyvalue>， 其 中 key 为 紧密 度 矩 阵 的 位 置 ，value 为 紧密 度 矩 阵 位 置 对 应 的 紧密 度 值 ， 最 后 以 
MatrixOutputFormat 类 〈 自 定义 输出 类 ， 以 输出 位 置 key 的 位 置 ， 输 出 和 矩阵) 输出， 得 到 输入 网 
络 的 紧密 度 矩 阵 。 

3. 一 次 随机 游 走 过 程 

在 并 行 化 的 一 次 随机 游 走 过 程 中 ， 可 以 并 行 计算 所 有 节点 的 一 次 随机 游 走 过 程 ， 经 过 一 次 
mapreduce job 后 , 得 到 所 有 节点 一 次 随机 游 走 过 程 后 的 所 属 社区 情况 , 对 于 多 次 的 随机 游 走 过 程 ， 
需要 多 次 迭代 mapreduce job 得 到 最 终 的 节点 的 社区 划分 结果 。 

输入 文本 为 所 有 节点 与 邻接 点 的 对 应 ， 格 式 为 每 一 行 对 应 一 个 节点 的 邻接 信息 ， 由 节点 ID 
和 邻接 点 ID 组 成 ， 中 间 使 用 分 隔 符 分 隔 。 输 出 文本 为 经 过 一 次 随机 游 走 之 后 的 节点 与 所 属 社团 
的 对 应 ， 格 式 为 每 一 行 对 应 一 个 节点 的 所 属 社团 信息 ， 由 节点 ID 和 所 属 社区 编号 组 成 ， 中 间 使 
用 分 隔 符 分 隔 .Map 函数 根据 公式 (8-3 ) 计 算得 到 输入 key 节点 对 输入 value 社区 的 CA 值 ,Reduce 
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函数 将 经 过 MapReduce 的 Shuffle 阶段 归并 得 到 的 同一 个 节点 对 所 有 其 邻接 社区 的 CA 值 ， 并 计 
算 随 机 移动 概率 ， 经 过 比较 ， 使 得 节点 向 随机 概率 最 大 对 应 的 社团 移动 ， 得 到 此 节点 与 所 属 社团 
的 对 应 ， 一 次 随机 游 走 的 mapreduce 过 程 图 如 图 8.2 所 示 。 
















































































i 计算 节点 对 其 所 
计算 节点 对 邻接 
输入 网 络 中 所 | 社区 的 CA 值 | 有 邻接 社区 的 随 一 次 随机 游 走 
有 节点 的 邻接 机 移动 概率 ”/ | _ 八 上 过 程 后 ， 所 有 
站 | | 节点 与 所 属 社 
一 区 的 对 应 
计算 节点 对 邻接 计算 节点 对 其 所 
社区 的 CA 值 有 邻接 社区 的 随 
机 移动 概率 
输入 Map 任务 Reduce 任务 输出 


8.2 一 次 随机 游 走 的 MapReduce 过 程 图 


Map 函数 的 输入 类 型 <IntWritable,IntWritable> 以 RmsInputFormat 类 ( 自 定义 类 ,使 得 Map 的 
输入 key 为 节点 ID, 输入 value 为 节点 ID 的 邻接 点 的 所 属 社区 集合 中 的 元 素 ) 将 输入 文本 分 片 得 
到 ， 输 入 <keyvalue> 中 key 为 节点 ID，value 为 节点 key 的 邻接 社区 。Map 函数 读 入 节点 之 间 的 
邻接 信息 和 紧密 度 矩 阵 ， 函 数 CA 根据 公式 〈8-3 ) 计算 得 到 输入 key 节点 对 输入 value 社区 的 CA 
值 , 输出 类 型 为 < IntWritable,DoublePair > 中 的 <key,value>, 其 中 key 为 节点 ID, value 为 输入 value 
社区 与 计算 得 到 的 CA 值 组 成 的 浮 点 数 对 ， 一 次 随机 游 走 过 程 的 Map 函数 如 下 所 示 。 

-次 随机 游 走 过 程 的 Map 函数 : 
linjie=ReadLinjie() 
CM=ReadCM () 
cavalue=CA (key, value) 
outputvalue=new DoublePair(value cavalue) 


context .write (key, outputvalue) 


Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<DoublePair >>， 输 入 <keyvalues> 中 key 为 节 
点 ID， 经 过 MapReduce 的 Shuffle 阶段 ，values 由 同一 节点 ID 对 应 的 邻接 社区 与 CA 值 组 成 的 浮 
点 数 对 组 成 。Reduce 函数 根据 公式 (8-4) 得 到 输入 节点 对 邻接 社区 的 随机 移动 概率 ， 存 入 随机 
移动 概率 与 邻接 社区 的 映射 ， 比 较 所 有 的 随机 移动 概率 ， 使 得 节点 ID 的 所 属 社区 为 最 大 随机 移 
动 概率 对 应 的 社区 ， 输 出 类 型 为 < IntWritable,IntWritable> 中 的 <keyvalue>， 其 中 key 为 节点 ID， 
value 为 节点 ID 所 属 的 社区 编号 ， 最 后 以 TextOutputFormat 类 输出 ， 得 到 每 个 节点 与 所 属 社区 的 
对 应 ， 一 次 随机 游 走 过 程 的 Reduce 函数 如 图 下 所 示 。 

一 次 随机 游 走 过 程 的 Reduce 函数 : 

Sum=0.0 
for (DoublePair val: values) do 
sumt=val .getright () 
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end for 
Ptoc=new HashMap<IntWritable,IntWritable>(); 
for (DoublePair val: values) do 
p=val.getright () /sum 
ptoc.put (p,val.getleft()) 
end for 
outputvalue=pton.get (max (ptoc.keyset ())) 
context .write (key, outputvalue) 


AP 聚 类 算法 的 并 行 化 实现 


8.4.1 AP 聚 类 算法 


仿 射 传播 聚 类 算法 是 JFrey 在 2007 年 发 表 在 Science 杂志 上 的 一 篇 论文 中 提出 的 。 这 种 算法 
的 基本 思想 是 通过 数据 点 之 间 传 递 消息 ， 自 动 发 现 聚 类 中 心 ， 并 实现 数据 点 的 自动 聚 类 。AP 聚 
类 相 比 于 经 典 的 K-means 聚 类 有 一 个 明显 的 优点 是 ， 它 不 需要 一 开始 假定 聚 类 的 类 别 是 多 少 ， 也 
不 需要 去 预 设 对 聚 类 结果 影响 比较 大 的 初始 中 心 。AP 算法 的 聚 类 中 心 是 在 迭代 中 慢 慢 自 动 浮现 
出 来 的 , 同时 AP 聚 类 的 聚 类 结果 比 K-means 的 要 好 。AP 聚 类 相 比 于 谱 聚 类 的 一 个 优势 是 它 在 聚 
类 速度 上 相对 较 快 。 一 般 谱 聚 类 的 算法 时 间 复 杂 度 是 O(m) ，n 是 数据 点 的 个 数 。 而 AP 聚 类 的 
时 间 复 杂 度 是 O(1n?) ， 其 中 t 是 算法 迭代 的 次 数 。 所 以 正常 情况 下 ，AP 聚 类 比 谱 聚 类 要 快 。AP 
聚 类 是 和 其 他 算法 (如 K-means) 截然 不 同 的 一 种 算法 ， 它 并 不 在 初始 化 阶段 指定 一 些 初始 化 中 
心 ， 相 反 ， 它 把 每 个 数据 点 都 同等 地 看 作 是 潜在 的 聚 类 中 心 (在 AP 算法 中 ， 这 些 潜在 的 聚 类 中 
心 称 为 exemplars)。AP 聚 类 通过 把 数据 点 看 做 网 络 上 的 一 个 节点 , 并 设置 一 些 方法 在 节点 之 间 传 
递 实 值 的 信息 ， 直 到 一 些 足够 好 的 聚 类 中 心 和 整体 上 看 来 足够 好 的 聚 类 结果 浮现 出 来 。 


1. 计算 相似 度 和 矩阵 

AP 聚 类 需要 的 输入 是 一 个 由 节点 之 间 的 相似 度 组 成 的 一 个 矩阵 S, 在 这 个 矩阵 中 的 每 个 元 素 
S(1j) 表 示 节 点 i 与 j 之 间 的 相似 度 ， 同 时 也 表明 了 节点 j 作为 i 的 聚 类 中 心 的 合适 程度 。 对 于 不 同 
的 数据 集 ， 相 似 值 的 计算 方法 可 以 根据 数据 集 的 特点 来 选择 。 以 下 是 选用 欧 氏 距离 的 负 值 作为 相 
似 值 ， 将 节点 之 间 的 邻接 矩阵 转换 成 节点 之 间 的 相似 度 窃 阵 ， 节 点 i 和 节点 j 之 间 的 相似 度 利用 
公式 (8-5) 计算 : 

















SD = |S CX) 式 (85) 


大 =1 


如 式 〈8-5) 中 3 表示 节点 之 间 的 邻接 矩阵 X 第 i 行 第 k 列 的 元 素 ，n 表示 节点 的 总 个 数 。 
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相 比 于 要 预 设 类 簇 的 个 数 ， 仿 射 传播 把 一 个 对 每 个 节点 k 赋 一 个 实 值 Stelg)， 即 相似 矩阵 S 
对 角 线 上 第 k 行 的 元 素 。S(k,k) 的 值 越 大 ， 就 表明 第 k 个 节点 作为 聚 类 中 心 (exemplar) 的 可 能 性 
越 大 ， 这 些 对 角 线 上 的 值 称 为 “倾向 值 ”(preference )。 最 终 得 到 的 聚 类 中 心 的 个 数 一 方 面 受到 输 
入 的 倾向 值 的 影响 ， 另 一 个 方面 也 会 随 着 AP 聚 类 的 消息 传递 的 过 程 而 逐渐 呈现 。 因 为 一 开始 AP 
聚 类 所 有 的 节点 作为 聚 类 中 心 的 可 能 性 都 是 一 样 的 ， 所 以 所 有 节点 的 “倾向 值 ”都 应 该 被 赋予 一 
个 相同 大 小 的 值 ， 这 个 值 的 设 定 会 影响 到 最 后 聚 类 类 簇 (clusters〉 的 个 数 。 一 般 可 以 把 这 个 值 设 
为 相似 值 的 平均 值 (这 样 产生 的 类 簇 的 数目 处 于 一 个 中 等 大 小 的 级 别 ), 或 者 相似 值 的 最 小 值 (这 
样 产生 的 类 簇 的 数目 处 于 一 个 较 少 的 级 别 )。 所 以 如 果 你 想 要 你 的 类 簇 的 数目 比较 小 , 就 可 以 把 这 
个 “倾向 值 ” 设 成 一 个 比较 小 的 值 。 

2. 执行 AP 聚 类 算法 

AP 聚 类 算法 定义 节点 之 间 传 递 两 类 信息 ， 并 且 这 两 类 信息 会 被 引入 用 于 两 套 不 同 的 竞争 机 
制 中 。 这 两 类 信息 分 别称 为 吸引 度 〈responsibility) 和 归属 度 (availability )。 

吸引 度 是 从 节点 i 传递 到 候选 作为 其 聚 类 中 心 的 节点 k 的 信息 ， 称 为 节点 k 对 于 节点 i 的 吸 
引 度 ， 其 值 记 为 Kilo。 吸引 度 rig 反 映 的 是 节点 k 通过 与 其 他 节点 竞争 ， 作 为 适合 节点 i 的 聚 
类 中 心 的 程度 。r(i,k) 的 计算 需要 引入 节点 i 对 于 其 他 潜在 的 候选 聚 类 中 心 节点 的 归属 度 a(i,k ) 
来 触发 竞争 ，r(ilo 的 计算 如 式 〈8-6) 所 示 : 

rh) sli h) -max{a(ik ) +s(i,k)} 式 (8-6) 





归属 度 是 从 候选 的 类 簇 中 心 节点 k 传递 到 节点 i 的 信息 ， 称 为 节点 i 对 于 节点 的 归属 度 ， 
其 值 记 为 ai,k)。 归属 度 a(i,k) 反 映 的 是 节点 i 选择 节点 k 作为 其 类 簇 中 心 的 适合 程度 , 这 种 竞争 的 
思想 是 : 如 果 节点 k 作为 其 他 节点 六 的 类 簇 中 心 的 合适 程度 很 大 ， 则 节点 k 作为 节点 i 的 类 簇 中 
心 的 合适 程度 也 会 较 大 。a(i,k) 计 算 的 是 引入 是 将 候选 类 簇 中 心 的 节点 k 对 其 他 节点 福 的 吸引 度 作 
为 比较 ， 计 算 a(i，k) 如 式 (8-7) 所 示 : 


a(ik) min{0,r(k,K)+ >》 max{0,r(i, A 式 (8-7) 
i#{ik} 
自发 的 归属 度 a(k,k) 被 更 新 的 方法 不 同 ， 如 式 (8-8》 所 示 : 
a(k,k) < > max{0,r(i,k)} 式 (8-8) 
zi 
这 个 消息 反映 的 是 节点 k 作为 类 簇 中 心 的 能 力 ， 主 要 是 基于 非 负 的 其 他 节点 发 给 候选 节点 k 
的 吸引 度 。 

整个 AP 聚 类 的 算法 流程 如 下 : 


(1) 初始 化 ， 将 所 有 的 availability 的 值 a(il9 全 部 赋值 为 零 ， 输 入 相似 矩阵 s， 其 中 s(iJ9 是 
节点 i 与 节点 k 之 间 的 相似 值 ， 而 s(k,k) 则 是 k 点 作为 候选 类 簇 中 心 的 倾向 值 。 
(2) 计算 节点 k 对 于 节点 i 的 吸引 度 ， 其 计算 公式 为 : 


r(i,k) < s(i,k) —max{a(i, k)+s(i,k)} 
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(3) 计算 节点 i 对 于 节点 k 的 归属 度 ， 其 计算 公式 为 : 
a(i,k) -min{0,r(k,k)+ > max{0,r(i,A)}} 
i'#{ik} 
a(k,k) < 》 max{0,r(i,k)} 
iz{ik} 
(4) 直到 类 簇 中心 不 再 发 生变 化 , 或 者 已经 完成 了 指定 的 迭代 次 数 后 ,停止 计算 , 否则 重复 
第 (2) 步 和 第 (3) 步 。 
(5) 对 角 线 上 的 值 a(k，k)+r(k，k)>0 的 节点 k 为 自动 发 现 的 类 簇 中心 ， 而 对 于 节点 i， 使 
a(i,k)+r(i,k) 最 大 的 候选 类 簇 中 心 为 其 真正 归属 的 类 簇 中 心 。 


8.4.2 AP 聚 类 算法 在 MapReduce 上 的 实现 


1. 计算 相似 度 矩 阵 


输入 文本 为 节点 之 间 的 邻接 和 矩阵， 格式 为 每 一 行 对 应 一 个 节点 的 邻接 节点 信息 。 输 出 文本 为 
节点 之 间 的 相似 度 和 矩阵 ， 格 式 为 每 一 行 对 应 一 个 节点 与 所 有 节点 之 间 的 相似 值 。Map 函数 得 到 公 
式 (8-5) 中 (XX 一半 j) 的 结果 , Reduce 函数 将 经 过 MapReduce 的 Shufhe 阶段 归并 计算 值 相 加 、 
开平 方 和 求 负 得 到 最 终 的 相似 值 。 

Map 函数 的 输入 类 型 <IntPair,FolatPair> (IntPair 类 中 有 两 个 整数 属性 ，FloatPair 类 中 有 两 个 
浮 点 数 属性 ) 以 MatrixInputFormat 类 〈 将 输入 矩阵 以 一 行 和 一 列 为 一 个 分 片 ， 每 一 个 分 片 中 行 号 
和 列 号 组 成 key， 行 列 对 应 位 置 的 两 个 矩阵 值 组 成 value) 将 输入 文本 分 片 得 到 ， 输 入 <keyvalue> 
中 key 为 输入 文本 中 矩阵 的 行列 号 ，value 为 行列 对 应 位 置 的 两 个 矩阵 值 。Map 函数 中 value 的 
getLeftO 和 getRight() 方 法 获得 value 中 两 个 浮 点数 ，sub 函数 为 两 个 参数 相 减 后 平方 的 结果 ， 输 出 
类 型 为 < IntPair,FloatWritable > 中 的 <keyvalue>, 其 中 key 为 相似 度 矩 阵 的 行列 号 , value 为 函数 sub 
计算 后 得 到 的 值 ， 实 现 框架 如 下 所 示 。 

计算 节点 之 间 的 相似 度 和 矩阵 的 Map 函数 : 

dif=sub(value.getLeft(),value.getRight ()) 
context .write(key, dif) 

Reduce 函数 的 输入 类 型 为 < IntPair,Iterable<FloatWritable >>， 输 入 <key,values> 中 key 为 相似 
度 和 矩阵 的 行列 号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 多 个 位 置 对 应 的 两 个 矩阵 值 


(CC 一 已 6 计算 得 到 的 值 组 成 。Reduce 函数 相 加 所 有 values 中 的 值 后 开平 方 和 加 负 号 ， 得 到 公 


式 〈8-5) 计算 后 的 相似 值 ， 输 出 类 型 为 < IntPair,IntWritable> 中 的 <key,value>， 其 中 key 为 相似 度 
矩阵 的 行列 号 ，value 为 相似 度 矩 阵 位 置 key 的 值 ， 最 后 以 MatrixOutputFormat 类 输出 ， 得 到 节点 
之 间 的 相似 度 和 矩阵 ， 实 现 框架 如 下 所 示 。 

计算 节点 之 间 的 相似 度 矩 阵 的 Reduce 函数 : 
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实战 大 数据 


sum=0.0 

for(FloatWritable val: values) do 
sumt+=val .get () 

end for 

result=- (Math. sqrt (sum)) 

context .write(key, result) 


2. 执行 AP 聚 类 算法 

AP 聚 类 的 整个 过 程 为 多 次 迭代 计算 憩 阵 值 ， 直 到 达到 进 代 次 数 或 聚 类 中 心 连续 多 次 不 再 发 
生 改 变 ， 需 要 进行 多 次 迭代 的 mapreduce job， 其 中 一 次 欠 代 包括 计算 吸引 度 和 矩阵、 计算 归属 度 矩 
阵 和 转换 归属 度 矩 阵 的 列 文件 到 归属 度 矩 阵 的 行文 件 ， 当 达到 进 代 次 数 或 聚 类 中 心 连续 多 次 不 再 
发 生 改 变 后 ， 发 现 聚 类 中 心 并 划分 节点 。 


(1) 计算 吸引 度 矩 阵 

输入 文本 为 节点 之 间 的 相似 度 和 矩阵 和 初始 化 或 上 次 迭代 产生 的 归属 度 矩 了 泗 ， 相 似 度 和 矩阵 格式 
为 每 一 行 对 应 一 个 节点 与 所 有 节点 的 相似 度 信息 ， 每 一 行 按 顺 序 由 矩阵 行 号 、 第 一 列 相似 度 值 和 
相似 度 矩 阵 标志 字符 s 组 成 的 字符 串 、 第 二 列 相似 度 值 …… 最 后 一 列 相 似 度 值 组 成 ， 行 号 和 相似 
值 之 间 用 “\ ”字符 隔 开 ， 相 似 值 之 间 用 空格 字符 隔 开 ， 归 属 度 矩 阵 的 格式 与 相似 度 和 矩阵 的 格式 
类 似 ， 只 是 每 一 行 第 一 列 是 第 一 列 相似 度 值 和 归属 度 和 矩阵 标志 字符 a 组 成 的 字符 串 。 输 出 文本 为 
节点 之 间 的 吸引 度 和 矩阵， 格式 为 每 一 行 对 应 一 个 节点 与 所 有 节点 之 间 的 归属 度 信息 ， 每 一 行 按 顺 
序 由 矩阵 行 号 、 第 一 列 归属 度 值 …… 最 后 一 列 归属 度 值 ， 分 隔 符 的 格式 与 相似 度 和 矩阵 一 样 。 

分 析 公 式 (8-6)， 可 以 看 出 行 号 i 是 固定 的 ， 而 列 号 k 是 变化 的 ， 所 以 可 以 把 吸引 度 和 矩阵 中 
的 某 一 行 i 的 所 有 值 放 在 一 起 计算 ， 即 Map 函数 将 输入 文本 中 的 相似 度 和 矩阵 和 归属 度 和 矩阵 的 每 一 
行内 容 转换 成 公式 (8-6) 所 需要 的 格式 ，Reduce 函数 将 经 过 MapReduce 的 Shuffle 阶段 归并 得 到 
的 同一 行 号 的 相似 度 值 和 归属 度 值 ， 根 据 公 式 〈8-6) 计算 得 到 同一 行 号 的 吸引 度 值 ， 计 算 吸 引 度 
矩阵 的 mapreduce 过 程 图 如 图 8.3 所 示 。 


| /| /名 扫 相似 席 知 阵 】 | /| [生生 同和 
和 归属 度 短 阵 一 Wt 
相似 度 算 阵 和 行 的 内 容 | ee 










































































归属 度 和 矩阵 
-一 转换 相似 度 矩 阵 opr 
和 归属 度 矩 阵 一 MN 
行 的 内 容 
输入 Map 任务 Reduce 任务 输出 


图 8.3 计算 吸引 度 和 矩阵 的 MapReduce 过 程 图 


Map 函数 的 输入 类 型 <TexbTexf> 以 KeyValueTextInputFormat 类 将 输入 文本 分 片 得 到 ， 输 入 
<keyvalue> 中 key 为 输入 文本 相似 度 窃 阵 或 归属 度 矩 阵 的 行 号 , value 为 输入 文本 相似 度 窍 阵 或 归 
属 度 矩 阵 中 key 行 所 有 值 构 成 的 文本 串 。Map 函数 中 将 Text 类 型 输入 key 转换 成 ntWritable 类 型 
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的 输出 key， 输 出 类 型 为 < IntWritable,Text > 中 的 <keyvalue>， 其 中 key 为 矩阵 的 行 号 ，value 为 矩 
阵 中 key 行 所 有 值 构成 的 文本 串 ， 实 现 框架 如 下 所 示 。 
计算 吸引 度 矩 阵 的 Map 函数 : 
row=new IntWritable () 
row.set (Integer.parseInt (key.tostring())) 
context .write (row,value) 
Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<Text >>， 输 入 <key,values> 中 key 为 矩阵 的 行 
号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 key 行 号 的 相似 度 和 矩阵 行 的 所 有 值 构成 的 文本 串 和 
归属 度 矩 阵 行 的 所 有 值 构成 的 文本 串 组 成 。Reduce 函数 中 将 输入 的 行文 本 串 加 入 到 相应 矩阵 的 列 
表 中 ， 经 过 函数 Reompute 计算 [根据 公式 〈8-6) 计算 ]， 得 到 新 产生 的 吸引 度 和 矩阵 中 key 行 的 所 
有 吸引 度 值 , 输出 类 型 为 < IntWritable,Text> 中 的 <key,value>， 其 中 key 为 吸引 度 和 矩阵 的 行 号 ，value 
为 吸引 度 key 行 中 所 有 吸引 度 值 构成 的 文本 串 ， 最 后 以 MultipleTextOutputFormat 类 输出 ， 得 到 节 
点 之 间 的 吸引 度 和 矩阵 ， 实 现 框架 如 下 所 示 。 
计算 吸引 度 窍 阵 的 Reduce 函数 : 
List S=empty,A=empty 
while (values.hasNext ()) do 
rowc=values.next () .toString() .split(™ *“) 
(5,A)=addSsA (rowc) 
end while 
new_rowc=Rcompute (S,A) 
context .write (key, new_rowc) 
(2) 计算 归属 度 矩 阵 
输入 文本 为 本 次 迭代 产生 的 节点 之 间 的 吸引 度 矩 阵 ， 吸 引 度 矩 阵 格 式 同 上 。 输 出 文本 为 节点 
之 间 的 归属 度 矩 阵 ， 归 属 度 矩 阵 格式 和 上 节 的 归属 度 矩 阵 类 似 ， 不 同 是 输出 文本 的 每 一 行 表示 归 
属 度 和 矩阵 的 一 列 内 容 。 
分 析 公式 〈8-7) 和 公式 (8-8)， 可 以 看 出 行 号 六 是 变化 的 ， 而 列 号 k 是 固定 的 ， 所 以 我 们 可 
以 把 归属 度 矩 阵 中 的 某 一 列 k 的 所 有 值 放 在 一 起 计算 , 即 Map 函数 将 输入 文本 中 的 吸引 度 和 矩阵 的 
每 一 行 的 全 部 吸引 度 值 分 开 ， 得 到 列 号 与 吸引 度 值 的 对 应 ，Reduce 函数 将 经 过 MapReduce 的 
Shuffle 阶段 归并 得 到 的 同一 列 的 吸引 度 值 根据 公式 〈8-7) 和 公式 〈8-8) 得 到 同一 列 的 归属 度 值 。 
Map 函数 的 输入 类 型 <Text,Text> 以 KeyValueTextInputFormat 类 将 输入 文本 分 片 得 到 ， 输 入 
<key,value> 中 key 为 输入 文本 吸引 度 和 矩阵 的 行 号 ，value 为 输入 文本 吸引 度 矩 阵 中 key 行 所 有 值 构 
成 的 文本 串 。Map 函数 循环 遍历 得 到 一 行 的 每 一 个 值 ， 并 将 列 号 与 吸引 度 值 的 对 应 输出 ， 输 出 类 
型 为 < IntWritable,Text > 中 的 <key,value>， 其 中 key 为 矩阵 的 列 号 ，value 为 矩阵 中 输入 key 行 输出 
key 列 的 吸引 度 值 与 行 号 组 成 的 文本 串 ， 实 现 框架 如 下 所 示 。 
计算 归属 度 矩 阵 的 Map 函数 : 
colc=value.toString() .split (™ *“) 


coln=new IntWritable() 
for (num in colc.length) do 
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实战 大 数据 
coln.set (num) 
Colv=new Text (colc[num] +key) 
context .write (coln, colv) 
end for 
Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<Text >>， 输 入 <key,values> 中 key 为 矩阵 的 列 
号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 key 列 号 的 所 有 吸引 度 值 和 自己 行 号 构成 的 文本 串 
组 成 。Reduce 函数 中 将 输入 的 列 文本 串 加 入 到 吸引 度 和 矩阵 列表 中 ， 经 过 函数 Acompute 计算 [根据 
公式 (8-7) 和 公式 (8-8) 计算 ]， 得 到 新 产生 的 归属 度 矩 阵 中 key 列 的 所 有 归属 度 值 ， 输 出 类 型 
为 < ntWritable,Text> 中 的 <keyvalue>， 其 中 key 为 归属 度 矩 阵 的 列 号 ，value 为 归属 度 矩 阵 key 列 
中 所 有 归属 度 值 构成 的 文本 串 ， 最 后 以 MultipleTextOutputFormat 类 输出 ， 得 到 节点 之 间 的 归属 度 
矩阵， 实现 框架 如 下 所 示 。 
计算 归属 度 和 矩阵 的 Reduce 函数 : 
List R=empty 
while (values.hasNext ()) do 
R.add(values .next () .toString () ) 
end while 
new_colc=Acompute (R) 
Context .write (key,new_colc) 
(3) 转换 归属 度 矩 阵 的 列 文 件 到 归属 度 矩 阵 的 行文 件 
输入 文本 为 上 节 产 生 的 节点 之 间 的 归属 度 矩 阵 ， 输 出 文本 为 节点 之 间 的 归属 度 矩 阵 行文 件 ， 
归属 度 和 矩阵 格式 和 计算 吸引 度 和 矩阵 的 输入 归属 度 和 矩阵 格式 相同 。Map 函数 将 输入 文本 中 归属 度 矩 
阵 的 每 一 列 的 全 部 归属 度 值 分 开 ， 得 到 行 号 与 归属 度 值 的 对 应 ，Reduce 函数 将 经 过 MapReduce 
的 Shuffle 阶段 归并 得 到 的 同一 行 的 归属 度 值 组 合 输出 , 转换 归属 度 和 矩阵 的 列 文件 到 归属 度 矩 阵 的 
行文 件 的 mapreduce 过 程 图 如 图 8.4 所 示 。 






















































































一 (ee - 列 的 归属 将 同一 行 的 归属 
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归属 度 和 矩阵 的 度 他 分 开 度 信 组 全 输出 归属 度 短 阵 的 
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输入 Map 任务 Reduce 任务 输出 


图 84 ”转换 归属 度 矩阵 的 列 文件 到 归属 度 和 矩阵 的 行文 件 的 MapReduce 过 程 图 


Map 函数 的 输入 类 型 <Text,Text> 以 KeyValueTextInputFormat 类 将 输入 文本 分 片 得 到 ， 输 入 
<key,value> 中 key 为 输入 文本 归属 度 窍 阵 的 列 号 ，value 为 输入 文本 归属 度 窃 阵 中 key 列 所 有 值 构 
成 的 文本 串 。Map 函数 循环 遍历 得 到 一 列 的 每 一 个 值 ， 并 将 行 号 与 吸引 度 值 的 对 应 输出 ， 输 出 类 
型 为 < IntWritable,Text > 中 的 <key,value>， 其 中 key 为 矩阵 的 行 号 ，value 为 矩阵 中 输入 key 列 输出 
key 行 的 归属 度 值 和 列 号 构成 的 文本 串 ， 实 现 框架 如 下 所 示 。 
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转换 列 文 件 到 行文 件 的 Map 函数 : 


colc=value.toString() .split (™ *“) 

rown=new IntWritable() 

for (num in colc.length) do 
rown.set (num) 
rowv=new Text (colc[num] +key) 
context .write (rown, rowv) 

end for 


Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<Text >>， 输 入 <key,values> 中 key 为 矩阵 的 行 
号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 key 行 号 的 所 有 归属 度 值 和 自己 列 号 构成 的 文本 串 
组 成 。Reduce 函数 中 trans 函数 将 输入 的 key 行 的 所 有 归属 度 值 组 合成 Text 类 的 文本 串 ， 得 到 归 
属 度 矩 阵 中 key 行 的 所 有 归属 度 值 ， 输 出 类 型 为 < IntWritable,Text> 中 的 <key,value>， 其 中 key 为 
归属 度 和 矩阵 的 行 号 ，value 为 归属 度 窍 阵 key 行 中 所 有 归属 度 值 构成 的 文本 串 ， 最 后 以 
MultipleTextOutputFormat 类 输出 ， 得 到 节点 之 间 的 归属 度 矩 阵 ， 实 现 框架 如 下 所 示 。 

转换 列 文件 到 行文 件 的 Reduce 函数 : 

List R=empty 
while (values.hasNext ()) do 
R.add(values.next () .toString () ) 
end while 
new_rowc=trans (R) 
Context .write (key, new_rowc) 
(4) 发 现 聚 类 中 心 

输入 文本 为 最 终 产生 的 节点 之 间 的 吸引 度 和 矩阵 和 归属 度 矩 阵 ， 输 出 文本 为 发 现 的 聚 类 中 心 ， 
格式 为 每 一 行 对 应 一 个 发 现 的 聚 类 中 心 信息 ， 由 聚 类 中 心 ID 和 聚 类 中 心 行 在 吸引 度 矩 阵 的 对 角 
线 值 与 归属 度 和 矩阵 的 对 角 线 值 相 加 和 和 组成， 中间 使 用 分 隔 符 分 隔 。Map 函数 解析 输入 和 矩阵 的 一 行 
值 ， 得 到 每 一 行 的 对 角 线 值 ，Reduce 函数 将 经 过 MapReduce 的 Shuffle 阶段 归并 得 到 的 同一 行 吸 
引 度 矩 阵 和 归属 度 和 矩阵 的 对 角 线 值 相 加 ， 判 断 是 否 为 聚 类 中 心 。 

Map 函数 的 输入 类 型 <Text,Tex 人 以 KeyValueTextInputFormat 类 将 输入 文本 分 片 得 到 ， 输 入 
<key,value> 中 key 为 输入 文本 归属 度 和 矩阵 或 吸引 度 矩 阵 的 行 号 ,value 为 输入 文本 归属 度 矩 阵 或 吸 
引 度 矩阵 中 key 行 所 有 值 构成 的 文本 串 。Map 函数 解析 输入 矩阵 的 一 行 值 ， 得 到 每 一 行 的 对 角 线 
值 ， 输 出 类 型 为 < IntWritable,Text> 中 的 <key,value>， 其 中 key 为 矩阵 的 行 号 ，value 为 矩阵 中 输入 
key 行 的 对 角 线 值 。 

Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<Text >>， 输 入 <key,values> 中 key 为 和 矩阵 的 行 
号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 key 行 的 吸引 度 和 矩阵 对 角 线 值 和 归属 度 矩 阵 对 角 线 
值 组 成 。Reduce 函数 中 将 两 个 对 角 线 值 解析 出 来 相 加 ， 和 大 于 0 则 节点 key 为 发 现 的 聚 类 中 心 ， 
输出 类 型 为 < IntWritable,Tex 人 > 中 的 <key,value>, 其 中 key 为 发 现 的 聚 类 中 心 节点 ID( 和 抢 阵 的 行 号 )， 
value 为 发 现 的 聚 类 中 心 吸 引 度 矩阵 对 角 线 值 和 归属 度 和 矩阵 对 角 线 值 相 加 的 和 ， 最 后 以 
MultipleTextOutputFormat 类 输出 ， 得 到 发 现 的 聚 类 中 心 。 
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(5) 划分 节点 

输入 文本 为 最 终 产 生 的 节点 之 间 的 吸引 度 和 矩阵 和 归属 度 矩 阵 ， 输 出 文本 为 所 有 节点 与 所 属 聚 
类 中 心 的 对 应 , 格式 为 每 一 行 对 应 一 个 节点 所 属 的 聚 类 中 心 信息 , 由 节点 ID 和 聚 类 中 心 ID 组 成 ， 
中 间 使 用 分 隔 符 分 隔 。Map 函数 解析 输入 矩阵 的 一 行 值 ， 得 到 每 一 行 的 中 所 有 聚 类 中 心 列 的 值 ， 
Reduce 函数 将 经 过 MapReduce 的 Shuffle 阶段 归并 得 到 的 同一 行 吸引 度 和 矩阵 和 归属 度 矩 阵 的 所 有 
聚 类 中 心 列 的 值 相 加 ， 节 点 所 属于 相 加 和 最 大 的 聚 类 中 心 。 

Map 函数 的 输入 类 型 <TexbText> 以 KeyValueTextInputFormat 类 将 输入 文本 分 片 得 到 ， 输 入 
<key,value> 中 key 为 输入 文本 归属 度 窍 阵 或 吸引 度 矩 阵 的 行 号 ,value 为 输入 文本 归属 度 矩 阵 或 吸 
引 度 矩阵 中 key 行 所 有 值 构成 的 文本 串 。Map 函数 中 函数 Readcenters 读 取 发 现 的 聚 类 中 心 文件 ， 
得 到 聚 类 中 心 列表 ， 人 遍历 key 行 的 所 有 值 ， 函 数 join 将 key 行 中 所 有 聚 类 中 心 列 的 值 组 合成 文本 
串 输出 ， 输 出 类 型 为 < IntWritable,Text > 中 的 <key,value>， 其 中 key 为 矩阵 的 行 号 ，value 为 矩阵 中 
输入 key 行 中 所 有 聚 类 中 心 列 的 值 组 成 的 文本 串 ， 实 现 框架 如 下 所 示 。 

划分 节点 的 Map 函数 : 

List centers=Readcenters () 

colcenter=new Text() 

rowc=value.toString() .split (" ") 

for (num in rowc.length) do 
if (centers.contains (num)) 

colcenter=join (colcenter, rowc[num]) 

end if 

end for 

Context .write (key, colcenter) 

Reduce 函数 的 输入 类 型 为 < IntWritable,Iterable<Text >>， 输 入 <key,values> 中 key 为 矩阵 的 行 
号 ， 经 过 MapReduce 的 Shuffle 阶段 values 由 key 行 的 吸引 度 矩 阵 所 有 聚 类 中 心 列 的 值 和 归属 度 
矩阵 所 有 聚 类 中 心 列 的 值 组 成 。Reduce 函数 中 将 key 行 中 吸引 度 窍 阵 和 归属 度 矩 阵 相 同 列 的 两 个 
对 应 值 解析 出 来 并 相 加 ， 找 出 使 吸引 度 值 和 归属 度 值 相 加 和 最 大 的 聚 类 中 心 列 ， 则 第 key 个 节点 
属于 此 聚 类 中 心 ， 输 出 类 型 为 < IntWritable,Tex 人 > 中 的 <key,value>， 其 中 key 为 节点 ID 〈 和 矩阵 的 行 
号 )，value 为 节点 key 所 属 的 聚 类 中 心 ， 最 后 以 MultipleTextOutputFormat 类 输出 ， 得 到 所 有 节点 
与 所 属 聚 类 中 心 的 对 应 。 














实验 与 分 析 


8.5.1 实验 环境 


本 实验 用 到 的 Hadoop 集群 环境 包含 3 台 机 器 ， 是 一 个 典型 的 主 从 式 (Master-Slaves) 结构 。 
集群 包含 一 个 主 控 节 点 (Master) 和 两 个 从 属 节点 〈Slave)。 在 主 从 结构 中 ， 主 节点 一 般 负 责 集群 
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管理 、 任 务 调度 和 负载 平衡 等 ， 而 从 节点 则 执行 来 自主 节点 的 计算 和 存储 任务 。 集 群 环境 的 具体 
软 硬 件 和 网 络 配置 情况 如 表 8.2 所 示 。 主 控 节 点 的 硬件 配置 最 高 ， 其 余 两 台 从 属 节点 硬件 配置 相 
同 ， 搭 载 的 操作 系统 都 是 Ubuntul1.10。Hadoop 平台 基于 jdk1.6.0_02 搭建 ，Hadoop 使 用 的 是 目 
前 的 稳定 版 本 ， 版 本 号 是 0.20.203.0。 

表 8.2 集群 环境 配置 表 
序号 主机 名 网 络 地 址 硬件 参数 操作 系统 
A jobtracker 192.168.1.2 CPU: Intel Xeon W3505 Ubuntul1.10 


内 存 : 2GB DDR3*3 
硬盘 : SATA 1TB 








B 192.168.1.7 : Intel Core2 E7500 Ubuntul1.10 
: 2GB DDR3 
: SATA 320GB 
C 192.168.1.12 : Intel Core2 E7500 Ubuntul1.10 
: 2GB DDR3 
: SATA 320GB 














8.5.2 ”实验 与 结果 分 析 


本 节 按 照 规模 将 测试 集 分 为 较 小 规模 和 较 大 规模 两 类 进行 实验 ， 较 小 规模 测试 集 包括 karate 
网 络 、dolphin 网 络 和 football 网 络 ， 较 大 规模 测试 集 包括 CA-HepPH 和 Enron 邮件 通信 网 络 。 


1. 较 小 规模 测试 集 实验 


实验 采用 EQ 函数 来 评价 重 登 社团 结构 , 它 是 shen 等 人 为 了 能 在 树 状 图 中 选择 某 一 层 作 为 社 
团 发 现 结果 而 提出 来 的 Q 函数 的 扩展 ， 如 式 〈8-9) 所 示 : 


1 1 kk, 
W073m 0 2m) 

其 中 m 是 边 的 数目 , i 表示 社团 编号 ， O, 和 0O, 分 别 表示 节点 v 和 u 所属 社 团 的 数量 ,A 是 
网 络 的 邻接 矩阵 。 无 向 图 中 ， 大 和 分别 表示 节点 v 和 u 的 度 。 当 社团 结构 是 非 重 辣 时 ，EQ 函 
数 的 值 和 Q 函数 值 一 致 。Shen 等 人 还 在 论文 中 指出 ， 较 高 的 EQ 代表 了 较 强 的 重 革 社团 结构 。 下 
面 围绕 karate 网 络 、dolphin 网 络 和 football 网 络 这 三 个 真实 网 络 数据 来 进行 测试 。 

karate 网 络 是 一 个 俱乐部 网 络 ， 具 有 34 个 节点 和 78 条 边 。 该 俱乐部 因为 教练 (节点 1) 和 主 
管 (节点 34) 之 间 发 生 争执 而 分 裂 成 两 个 小 俱乐部 。 该 网 络 由 于 社团 结构 已 知 ， 曾 被 广泛 用 作 检 
验 社团 发 现 算法 的 数据 集 。 一 般 的 社团 发 现 算法 将 该 网 络 分 为 2~4 个 社团 ， 节 点 3、9、10、24 
常 被 作为 重 著 节点 。 表 8.3 中 列 出 了 并 行 化 RMS 算法 、 并 行 化 AP 聚 类 算法 和 其 他 两 种 算法 CPM、 
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COPRA 对 karate 网 络 的 实验 结果 对 比 ， 从 运行 时 间 可 以 看 到 并 行 化 RMS 算法 和 并 行 化 AP 算法 
均 比 CPM 算法 耗 时 长 ， 但 是 低 于 COPRA 算法 ， 从 社团 结构 的 EQ 值 可 以 看 到 并 行 化 RMS 算法 
划分 的 社团 结构 是 最 好 的 ， 高 于 其 他 三 种 算法 ， 并 行 化 AP 算法 由 于 是 非 重 共 的 社团 发 现 算法 ， 
社团 划分 效果 处 于 CPM 算法 和 COPRA 算法 之 间 。 

表 8.3 4 种 算法 作用 于 karate 网 络 的 EQ 和 运行 时 间 











| | 并 生化 Rus 并 行 化 hp copy | co | 

| EQ | 0.365 0.158 0.115 | 0.188 | 

| 运行 时 间 56 34 8 168 
(单位 为 ms) 











dolphin 网 络 是 新 西 兰 某 海湾 的 62 头 海豚 之 间 联 系 关系 而 形成 的 网 络 ， 具 有 62 个 节点 和 78 
条 边 ， 也 是 一 个 被 广泛 使 用 的 社会 网 络 数据 集 。 常 见 算法 一 般 将 其 分 作 4 个 社团 。 表 8.4 中 列 出 
了 并 行 化 RMS 算法 、 并 行 化 AP 聚 类 算法 和 其 他 两 种 算法 CPM、COPRA 对 dolphin 网 络 的 实验 
结果 对 比 ， 从 运行 时 间 可 以 看 到 并 行 化 RMS 算法 和 并 行 化 AP 算法 均 比 CPM 算法 耗 时 长 ， 但 是 
低 于 COPRA 算法 ，， 从 社团 结构 的 EQ 值 可 以 看 到 并 行 化 RMS 算法 划分 的 社团 结构 是 最 好 的 ， 
高 于 其 他 三 种 算法 ， 并 行 化 AP 算法 划分 的 社团 结构 较 之 其 他 三 种 算法 最 差 。 


表 8.4 4 种 算法 作用 于 dolphin 网 络 的 EQ 和 运行 时 间 


运行 时 间 
(单位 为 ms) 





football 是 2000 年 秋季 美国 高 校 存 槛 球 甲 级 常规 赛季 的 关系 数据 ， 节 点 代表 球 队 ， 边 表示 两 
个 球 队 参 加 过 同一 场 比赛 。 这 些 球 队 可 以 分 成 8~12 个 联盟 ， 联 盟 内 部 比赛 的 频率 高 于 联盟 间 的 
比赛 频率 ， 因 此 也 存在 社区 结构 。 表 8.5 中 列 出 了 并 行 化 RMS 算法、 并 行 化 AP 聚 类 算法 和 其 他 
两 种 算法 CPM、COPRA 对 football 网 络 的 实验 结果 对 比 ， 从 运行 时 间 可 以 看 到 并 行 化 RMS 算法 
和 并 行 化 AP 算法 均 比 CPM 算法 耗 时 长 ， 但 是 低 于 COPRA 算法 ，， 从 社团 结构 的 EQ 值 可 以 看 
到 并 行 化 RMS 算法 划分 的 社团 结构 是 最 好 的 ， 高 于 其 他 三 种 算法 ， 并 行 化 AP 算法 相对 于 其 他 三 











表 8.5 4 种 算法 作用 于 football 网 络 的 EQ 和 运行 时 间 
| | 并 行 化 Rs 并 行 化 Ap cpy COPRA 
| EQ | 0.563 0.538 0.559 0.550 
| 运行 时 间 237 162 44 279 
(单位 为 ms) 
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2. 较 大 规模 测试 集 实验 

CA-HepPH 是 一 个 科学 家 合作 网 络 ， 具 有 12 008 个 节点 和 237 010 条 边 。 表 8.6 中 列 出 了 并 
行 化 RMS 算法 、 并 行 化 AP 聚 类 算法 和 其 他 两 种 算法 CPM、COPRA 对 CA-HepPH 网 络 的 实验 
结果 对 比 ， 从 运行 时 间 可 以 看 到 CPM 算法 已 经 无 法 运行 ， 并 行 化 RMS 算法 和 并 行 化 AP 算法 均 
比 COPRA 算法 算法 耗 时 长 , 从 社团 结构 的 EQ 值 可 以 看 到 并 行 化 RMS 算法 划分 的 社团 结构 是 最 
好 的 ， 高 于 其 他 三 种 算法 ， 并 行 化 AP 算法 划分 的 社团 结构 次 之 。 

表 8.6 4 种 算法 作用 于 CA-HepPH 网 络 的 EQ 和 运行 时 间 
并 行 化 RMS 并 行 化 AP CPM COPRA 








0.278 0.196 0.171 


EQ - 
运行 时 间 76 30.40 
(单位 为 S) 


Enron 是 一 个 邮件 通信 网 络 ， 节 点 是 邮箱 ， 若 两 个 邮箱 之 间 至 少 有 一 次 邮件 往来 则 这 两 个 节 
点 之 间 存 在 边 。 该 网 络 具 有 36 692 个 节点 和 367 662 条 边 。 表 8.7 中 列 出 了 并 行 化 RMS 算法 、 并 
行 化 AP 聚 类 算法 和 其 他 两 种 算法 CPM、COPRA 对 Enron 网 络 的 实验 结果 对 比 ， 从 运行 时 间 可 
以 看 到 CPM 算法 已 经 无 法 运行 ， 并 行 化 RMS 算法 和 并 行 化 AP 算法 均 比 COPRA 算法 耗 时 长 ， 
从 社团 结构 的 EQ 值 可 以 看 到 并 行 化 RMS 算法 划分 的 社团 结构 是 最 好 的 ， 高 于 其 他 三 种 算法 ， 并 
行 化 AP 算法 划分 的 社团 结构 次 之 。 


表 8.7 4 种 算法 作用 于 Enron 网 络 的 EQ 和 运行 时 间 





运行 时 间 
单位 (s) 





特别 地 ， 当 处 理 邮 件 通信 网 络 时 ，CPM 算法 已 无 法 运行 ， 而 并 行 化 的 RMS 算法 和 并 行 化 
AP 算法 可 以 在 有 限时 间 内 完成 ， 所 以 并 行 化 的 RMS 算法 和 并 行 化 的 AP 算法 能 够 在 有 限 的 时 间 
内 处 理 大 规模 数据 。 当 然 ， 由 于 实际 情况 下 ， 集 群 会 受到 机 器 本 身 的 状态 、 文 件 系统 的 IO 读 写 
以 及 网 络 通信 时 延 等 情况 影响 ， 它 的 运行 时 间 要 比 预 期 的 长 。 


本 章 小 结 


自 2002 年 Girvan 和 Newman 提出 GN 算法 以 来 ， 社 区 发 现 发 展 迅速 ， 从 非 重 车 社区 结构 到 
重合 社区 、 层 次 社区 结构 ， 从 起 初 的 模块 化 函数 到 EQ 函数 ， 从 起 初 使 用 不 符合 真实 网 络 特征 的 
测试 网 络 到 使 用 尽 可 能 符合 真实 网 络 特征 的 LFR 人 工 网 络 , 以 及 派系 过 滤 算 法 、LFM 算法 、GCE 
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算法 等 一 系列 社区 算法 的 不 断 提出 ， 都 直接 推动 了 社区 发 现成 为 近年 复杂 网 络 研究 领域 的 热门 问 
题 。 虽 然 社区 发 现 算法 的 时 间 复 杂 度 不 断 降 低 ， 效 果 也 越 来 越 好 ， 但 许多 算法 都 有 其 局 限 性 ， 复 
杂 网 络 中 的 社区 发 现 问题 迄今 并 未 被 完美 解决 。 

Google 提出 的 Map/Reduce 概念 是 当前 比较 流行 的 分 布 式 计算 框架 。 本 章 研究 两 种 在 
Map/Reduce 上 实现 的 算法 : 并行 化 RMS 算法 和 并 行 化 AP 聚 类 。 分 别 实现 这 两 种 算法 在 3 台 机 
器 组 成 的 Hadoop 集群 上 的 分 布 式 计算 。 

通过 学 习 研究 RMS 算法 和 AP 算法 ， 实 现 了 RMS 算法 和 AP 算法 的 MapReduce 版 本 ,使 得 
算法 能 够 有 效 解决 大 规模 复杂 网 络 的 社区 发 现 问题 ; 通过 在 两 种 算法 上 测试 不 同 的 测试 集 ， 对 比 
并 行 化 RMS 算法 、 并 行 化 AP 算法 、CPM 算法 和 COPRA 算法 的 社区 划分 质量 和 运行 时 间 ， 发 
现 并 行 化 RMS 算法 和 并 行 化 的 AP 算法 能 够 有 效 地 处 理 大 规模 网 络 的 社团 发 现 问题 。 








328 


第 9 章 
数据 统一 访问 与 转换 平台 


在 信息 技术 飞速 发 展 的 今天 , 企业 的 信息 化 发 展 过 程 中 经 常会 生成 TB 级 别 的 数据 , 随 着 时 间 
的 累积 和 业务 的 扩展 ， 数 据 来 源 涵盖 了 互联 网 中 可 以 捕获 的 各 种 类 型 数据 ， 网 站 、 社 交 媒 体 、 交 
易 型 商业 数据 以 及 其 他 商业 环境 中 创建 的 数据 。 这 些 数据 源 大 多 存在 于 不 同 的 硬件 和 软件 环境 中 ， 
其 数据 以 各 种 格式 来 表现 。 由 于 数据 源 的 差异 以 及 数据 量 的 庞大 ， 对 这 些 数据 的 统一 处 理 和 分 析 
成 为 了 目前 数据 应 用 中 面 对 的 首要 问题 。 


应 用 背景 介绍 


随 着 20 世纪 信息 系统 集成 的 兴起 ,数据 集成 或 数据 的 统一 访问 访问 作为 一 种 资源 整合 的 理念 
和 方式 逐步 受到 重视 。 企 业 在 信息 化 的 建设 过 程 中 ， 建 立 了 由 不 同 核心 技术 构建 的 信息 系统 以 及 
相应 的 数据 库 ， 由 此 构成 了 一 个 个 的 异 构 数据 源 。 如 何 通过 一 个 集成 系统 ， 将 企业 内 部 和 外 部 的 
异 构 数据 源 进 行 整 合 ， 提 高 资源 的 利用 效率 ， 为 企业 和 事业 单位 提供 有 效 的 数据 支持 ， 是 现代 信 
息 系 统 建设 面临 的 巨大 挑战 。 

目前 实现 数据 共享 有 两 种 途径 ， 一 是 数据 转换 ， 另 一 种 是 数据 集成 。 第 一 种 途径 是 物理 意义 
上 的 数据 集中 ， 但 是 一 方面 它 需要 在 硬件 及 相关 软件 上 进行 巨大 的 投资 ， 另 一 方面 进行 海量 数据 
迁移 和 管理 也 存在 相当 大 的 风险 ， 相 应 访问 速度 也 可 能 不 理想 。 第 二 种 途径 属于 逻辑 集中 。 这 种 
途径 能 够 充分 利用 现 有 系统 ， 对 信息 资源 进行 分 布 存储 、 分 散 管理 、 统 一 访问 接口 ， 更 能 适应 信 
息 系统 的 发 展现 状 。 两 种 方式 各 有 优 缺点 。 

经 历 了 二 十 多 年 的 信息 发 展 ， 关 于 信息 数据 的 统一 访问 已 经 有 了 诸多 的 理论 和 技术 实现 ， 研 
究 者 提出 了 许多 数据 统一 访问 的 体系 结构 和 实现 方案 。 从 模型 上 分 有 三 种 ， 分 别 是 联邦 方式 、 数 
据 仓 库 和 中 间 件 方式 。 从 集成 技术 上 分 ， 则 异 构 数据 库 集成 技术 主要 有 数据 的 迁移 和 转换 、 多 数 
据 库 系统 和 使 用 中 间 件 。 

但 是 目前 通用 数据 统一 访问 访问 和 转换 平台 的 研究 尚 处 于 起 步 阶段 ， 国 外 一 些 著名 的 数据 库 
公司 开发 了 相应 的 中 间 件 产品 ， 用 于 解决 异 构 数据 集成 问题 。 但 使 用 这 些 中 间 件 产品 需要 做 大 量 
的 数据 接口 开发 工作 ， 并 且 现 阶段 国内 还 缺乏 比较 完整 的 数据 整合 产品 。 
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同时 现 有 的 数据 编程 技术 通常 是 或 多 或 少 地 针对 特定 数据 源 类 型 而 设计 的 ， 但 是 现实 世界 的 
应 用 中 ， 数 据 往往 都 来 自 于 多 种 数据 源 。 可 以 忽略 数据 来 源 普通 数据 的 表达 集 则 能 为 应 用 开发 者 
提供 一 种 简单 、 统 一 的 编程 模型 。 

数据 的 统一 访问 访问 与 转换 技术 的 提出 正 是 为 了 实现 网 络 信息 资源 的 共享 与 统一 访问 。 数 据 
的 统一 访问 与 转换 平台 收集 、 组 织 并 集成 来 自 不 同 数据 源 的 数据 ， 并 为 应 用 程序 员 提供 统一 、 规 
范 的 数据 访问 形式 ， 实 现 对 各 类 分 布 的 异 构 数 据 源 进行 透明 访问 。 数 据 的 统一 访问 访问 与 转换 平 
台 的 目标 是 对 异 构 数 据 源 的 统一 访问 和 应 用 ， 即 将 访问 请 求 分 解 到 各 个 不 同 的 数据 源 中 ， 再 将 返 
回 的 异 构 结果 进行 统一 整合 转换 ， 给 应 用 程序 的 设计 者 提供 了 一 个 统一 的 数据 源 访问 接口 ， 并 为 
后 续 的 数据 分 析 葛 定 基 础 。 

服务 数据 对 象 (Service Data Objects，SDO) 技术 正 逐 步 成 为 数据 集成 研究 的 热点 。SDO 与 
语言 无 关 ， 可 在 一 系列 编程 语言 中 使 用 ， 目 标 是 创建 一 个 数据 访问 层 实现 异 构 数据 的 统一 访问 。 
通过 使 用 SDO 技术 ， 应 用 程序 编程 人 员 可 以 采用 简单 易 用 的 统一 方式 访问 和 操作 来 自 异 构 数据 
源 的 数据 ， 并 使 用 跨 平台 标记 语言 XML 来 描述 信息 资源 模型 。 服 务 数 据 对 象 的 出 现 使 得 对 各 种 
不 规则 的 数据 信息 〈 当 然 也 包括 规则 信息 ) 集成 为 一 个 可 以 忽略 数据 来 源 的 普通 数据 的 表达 集成 
为 可 能 。 

随 着 SOA 理念 的 流行 和 Web Service 等 技术 的 广泛 应 用 ， 我 们 发 现在 越 来 越 多 的 系统 中 ， 需 
要 访问 各 种 不 同 的 底层 数据 ， 这 些 数据 包括 关系 型 数据 库 、EJB 组 件 、XML 文件 或 数据 库 、Web 
服务 、JSP 页 面 数据 等 。 为 了 能 够 访问 和 操作 这 些 数 据 ， 开 发 人 员 必 须 了 解 针 对 不 同 数据 源 操作 
的 规范 和 API。 服 务 数据 对 象 技术 为 我 们 提供 了 统一 的 数据 访问 应 用 开发 框架 ， 它 提供 了 对 多 种 
企业 信息 系统 (EIS ) 的 统一 数据 访问 , 包括 数据 库 、 遗留 应 用 程序 (使 用 JCA)、 XML 或 者 是 Web 
服务 数据 源 。 通 过 使 用 服务 数据 对 象 的 一 种 独特 而 简单 的 数据 模型 ， 应 用 程序 能 够 摆脱 使 用 多 种 
API 和 框架 进行 数据 访问 的 复杂 工作 ， 使 开发 人 员 只 需 了 解 服务 数据 对 象 技术 API 即 可 操作 各 种 
异 构 数据 源 数 据 信息 。 

服务 数据 对 象 SDO, 是 BEA 和 IBM 共同 发 布 的 一 项 规范 。SDO 是 Java 平台 的 一 种 数据 编 
程 架构 和 API， 它 统一 了 不 同 数据 源 类 型 的 数据 编程 ， 提 供 了 对 通用 应 用 程序 模式 的 健壮 支持 ， 
并 使 应 用 程序 、 工 具 和 框架 更 容易 查询 、 读 取 、 更 新 和 检查 数据 。 这 里 需要 说 明 ，SDO 不 是 一 种 
针对 数据 访问 和 持久 化 的 技术 , 而 是 一 种 数据 编程 架构 和 一 组 API。 SDO 主要 用 于 简化 数据 编程 ， 
让 开发 人 员 能 集中 解决 业务 逻辑 问题 而 不 是 底层 技术 。 

服务 数据 对 象 是 信息 的 容器 ， 设 计 用 于 提升 开放 标准 和 互 操作 性 。SDO 提供 了 在 整个 企业 
应 用 程序 中 表示 信息 的 方法 ， 包 括 表 示 层 、 业 务 逻 辑 层 和 持久 层 之 间 的 通信 ， 如 图 9.1 所 示 。 
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表示 层 Portlets/JSF/Coccon/Spring MVC/Tapestry/ete. 
平 
Ce C™) 
业务 逻辑 层 Session EJBs/BPEL Provesses/Spring Framework/etc. 








Mediator ediator ) Mediator ) Mediator 
持久 层 LDAP DataBase CICS 


图 9.1 SDO 应 用 通信 图 


SDO 解决 了 异 构 数据 的 兼容 性 的 问题 , 提出 了 一 个 简单 并 统一 的 模式 供 服务 处 理 其 相关 的 数 
据 。 开 发 人 员 可 以 用 SDO 统一 其 数据 访问 和 处 理 模 式 ， 即 使 这 些 数据 来 源 于 异 构 数据 源 一 一 关 
系数 据 库 、XML 数据 、Web 服务 或 者 是 企业 信息 系统 。 

SDO 通过 以 下 手段 简化 数据 编程 : 


® 统一 了 不 同 数据 源 类 型 的 数据 编程 ， 屏蔽 了 数据 库 底 层 的 差异 ， 对 骨 构 数据 可 以 通过 相同 
接口 来 调用 ， 使 应 用 把 精力 放 在 数据 的 逻辑 结构 ， 而 不 是 把 物理 差异 也 考虑 进去 ; 使 数据 
库 迁 移 及 版 本 升级 变 得 很 容易 ， 无 需 修改 数据 操作 逻辑 。 

@ 动态 数据 类 型 ， 传 统 静 态 数 据 类 型 如 JavaBean 对 操作 数据 要 完全 清楚 ， 然 后 通过 get 和 
set 方法 来 操作 该 数据 类 型 ， 而 对 应 无 法 预先 知道 的 数据 ，SDO 则 更 适合 ，SDO 根据 实际 
数据 需求 ， 可 以 动态 地 组 合 数据 (可 以 通过 XSD 配置 ， 也 可 以 通过 代码 ) ， 添 加 、 修 改 
属性 。 

@ 提供 了 对 通用 应 用 程序 模式 的 健壮 支持 ， 使 应 用 程序 、 工 具 和 框架 更 容易 查询 、 读 取 、 绑 
定 、 更 新 和 检查 数据 ; 变更 摘要 使 数据 操作 变 得 更 得 心 应 手 。 


上 述 介绍 的 服务 数据 对 象 技术 为 异 构 数据 的 统一 访问 提供 了 理论 基础 ， 模 型 驱动 体系 架构 
(Model Driven Architecture，MDA) 技术 则 为 异 构 数据 的 转换 提供 了 可 能 。 

软件 技术 发 展 的 过 程 中 ， 软 件 开发 者 开发 出 具有 较 高 层次 的 抽象 程序 设计 语言 ， 使 得 软件 能 
够 实现 更 大 程度 的 复 用 。 在 这 些 理论 和 技术 的 支持 下 ，2001 年 对 象 管理 组 织 (Object Management 
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Group，OMG ) 提出 以 模型 为 中 心 的 软件 开发 框架 标准 一 一 模型 驱动 体系 结构 (Model Driven 
Architecture，MDA)， 使 得 软件 抽象 和 复 用 技术 达到 了 一 个 新 的 高 度 。 

MDA 将 数据 业务 和 应 用 逻辑 与 底层 平台 技术 分 离开 来 。 通 过 使 用 UML 以 及 其 他 的 OMG 
建 模 标准 , 来 表达 应 用 程序 或 者 集成 系统 的 业务 功能 和 行为 , 得 到 的 平台 无 关 模 型 可 以 通过 MDA 
实现 到 各 种 平台 上 ， 如 Web Services、.NET、CORBA、J2EE 等 。 这 些 平台 无 关 模 型 将 应 用 的 业 
务 功 能 与 行为 同 实现 它们 的 技术 特定 的 代码 分 离开 来 ， 如 图 9.2 所 示 。 
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9.2 MDA 结构 


图 9.2 中 最 内 环 是 MDA 的 核心 技术 : MOF (Meta Object Facility， 元 对 象 设施 )、 CWM 
(Common Warehouse Meta-model， 公 共 数 据 仓库 元 模型 ) 和 UML。 MDA 的 主要 工作 就 是 要 把 
基于 这 些 技术 建立 的 PIM (Platform Independent Model， 平 台独 立 模型 ) 转换 到 不 同 的 中 间 件 平 
台 上 ， 得 到 对 应 的 PSM (Platform Specific Model， 平 台 相 关 模型 )。 中 间 环 上 给 出 的 是 目前 主要 
针对 的 实现 平台 :CORBA、XML、JAVA、Web Services 和 .NET 。 显 然 ， 随 着 技术 的 发 展 ， 这 
个 列表 将 不 断 扩充 。 最 外 环 是 MDA 提供 的 公共 服务 ， 如 事务 〈Transactions) 等 ， 向 外 发 散 的 箭 
头 是 指 MDA 在 不 同 垂直 领域 的 应 用 ， 如 电子 商务 、 电 信和 制造 业 等 。 基 于 MDA 应 用 基础 为 数 
据 的 转换 提供 了 一 种 新 的 方式 。 
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数据 统一 访问 需求 分 析 与 总 体 设计 


9.2.1 功能 性 需求 分 析 


通过 对 应 用 背景 的 描述 分 析 可 以 提取 出 数据 统一 访问 和 转换 的 功能 性 需求 ， 其 功能 性 需求 的 
主要 用 例 图 如 图 9.3 所 示 。 





CD 仿 
: 


CC rm 7 数据 应 用 


93 ”数据 统一 访问 和 转换 用 例 图 


从 图 9.3 中 可 得 出 主要 的 功能 有 : 用 户 注册 数据 源 信息 到 数据 处 理 中 心 、 异 构 数据 源 对 数据 
源 中 存储 的 全 部 数据 进行 预 处 理 、 数 据 处 理 中 心 抽 取 相 关 异 构 数据 源 的 元 数据 信息 、 数 据 处 理 中 
心 依据 元 数据 信息 建立 映射 模式 、 数 据 处 理 中 心 抽 取 数 据 源 中 的 数据 信息 、 数 据 处 理 中 心 对 异 构 
数据 做 灵活 转换 以 及 对 转换 后 数据 的 存储 等 。 数 据 应 用 主要 是 对 数据 处 理 中 心 对 转换 后 的 数据 应 
用 或 者 对 存储 数据 的 特定 应 用 。 

由 于 在 异 构 数据 源 中 的 数据 量 可 能 是 巨大 的 ， 因 此 在 抽取 数据 信息 和 转换 数据 存储 数据 的 过 
程 中 主要 借助 于 服务 数据 对 象 编程 技术 Hadoop 平台 、 分布 式 MapReduce 计算 框架 和 HBase 存储 
等 相关 技术 来 达到 高 效 、 快 速 、 准 确 的 运算 和 存储 操作 。 

1. 数据 预 处 理 

数据 预 处 理 功能 的 目的 是 保证 数据 的 基本 质量 , 为 数据 的 抽取 、 转 换 、 存 储 等 提供 基础 服务 。 
数据 源 处 理工 作 主 要 在 数据 源 本 地 来 完成 ， 通 过 对 数据 的 清洗 ， 数 据 的 过 滤 、 去 重 以 及 数据 修正 


等 技术 手段 来 保证 数据 的 基本 质量 以 使 其 能 够 满足 数据 分 析 抽 取 等 过 程 的 统一 处 理 。 
预 处 理 数据 详细 用 例 规 约 如 表 9.1 所 示 。 









建立 映射 模式 





数据 处 理 中 心 
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表 9.1 预 处 理 数据 详细 用 例 规约 







































用 例 编号 
用 例 名 称 
参与 者 
描述 
系统 响应 
Step1: 获取 数据 源 数据 信息 (最 大 值 、 最 小 
值 、 记 录 数 、 空 值 数 目 等 ) 
: 统计 并 返回 记录 数 
用 例 典 型 事件 流 : 统计 并 返回 空 值 数目 
: 分 析 并 返回 最 大 值 
: 分 析 并 返回 最 小 值 





Step6: 依据 返回 的 分 析 统 计 信息 审核 校 验 数 
据 信息 

Step2: 统计 记录 数 返 回 为 零 (记录 为 空 值 ) 时 ， 不 再 进行 最 大 值 、 最 小 值 、 空 值 等 的 统计 
Step6: 因为 Step2 中 的 统计 记录 数 为 空 值 ， 因 此 不 再 需要 对 数据 信息 进行 审核 校 验 
数据 源 数据 信息 记录 数 不 为 空 什 

可 以 对 数据 源 数据 信息 按照 统一 的 规则 进行 分 析 处 理 等 操作 








可 选 事件 流 















2. 注册 数据 源 信息 


注册 数据 源 信息 功能 允许 用 户 将 需要 的 异 构 数据 源 信息 〈 数 据 源 访问 信息 ， 如 数据 库 的 访问 
地 址 、 端 口 、 数 据 库 名 、 用 户 名 和 密码 以 及 权限 等 ) 注册 到 数据 处 理 中 心 。 数 据 处 理 中 心得 到 数 





\ 后 可 以 随时 访问 数据 源 以 获取 数据 源 的 数据 信息 。 
注册 数据 源 信息 详细 用 例 规约 如 表 9.2 所 示 。 


表 9.2 注册 数据 源 信息 详细 用 例 规约 









注册 数据 源 信息 








参与 者 用 户 、 数 据 处 理 中 心 
描述 该 用 例 描述 了 用 户 向 数据 处 理 中 心 注册 数据 源 信息 的 过 程 
参与 者 动作 系统 响应 





Step1: 注册 数据 源 信息 

















Step2: 提示 输入 数据 源 的 信息 


用 例 典型 
事件 流 





Step3: 输入 数据 源 的 详细 信息 











Step4: 接收 输入 的 数据 源 信息 并 校 验 验证 数据 的 正确 性 
Step5: 测试 数据 源 的 访问 并 返回 注册 成 功 提示 信息 












Step6: 注册 完成 
可 选 事 件 | Step4， 输 入 的 数据 源 信息 校 验 失败 ， 返 回 到 Step3 提示 用 户 重新 输入 数据 源 的 信息 
流 Step5: 测试 数据 源 访问 失败 ， 提 示 用 户 检查 数据 源 信息 并 重新 测试 或 修改 数据 源 信息 
前 置 条 件 | 数据 源 可 访问 ， 数 据 处 理 中 心 可 连接 

后 置 条 件 | 数据 处 理 中 心 存储 数据 源 信息 

假设 无 
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抽取 数据 源 元 数据 信息 功能 允许 数据 处 理 中 心 抽取 异 构 数据 源 的 元 数据 信息 ， 这 些 信息 包含 
数据 库 名 、 数 据 库 表 名 、 属 性 (类 型 名 、 格 式 、 约 东 等 ) 以 及 主键 、 外 键 等 的 描述 ， 标 准 元 数据 
通常 被 用 来 访问 分 布 式 异 构 数 据 源 。 可 以 通过 服务 数据 对 象 (Service Data Object，SDO)、 数 据 
访问 服务 (Data Access Service，DAS) API 读 取 数 据 库 元 数据 (Metadata) 信息 ， 提 取 对 应 的 异 
构 资源 数据 库 的 所 有 表 信息 、 视 图 以 及 相关 的 规则 和 语义 约束 (如 主 外 键 、 唯 一 性 约束 、 默 认 值 


等 ) 信息 。 


抽取 数据 源 元 数据 信息 的 详细 用 例 规约 如 表 9.3 所 示 。 
表 9.3 ”抽取 数据 源 元 数据 信息 详细 用 例 规约 











用 例 编号 UC-3 
用 例 名 称 抽取 数据 源 元 数据 信息 
参与 者 数据 处 理 中 心 、 数 据 源 
描述 该 用 例 描述 了 数据 处 理 中 心 抽取 数据 源 元 数据 信息 的 过 程 
参与 者 动作 系统 响应 
Step1: 数据 处 理 中 心 获取 数据 源 元 数据 信 
息 ， 如 数据 库 名 、 数 据 库 表 名 、 属 性 〈 类 
型 名 、 格 式 、 约 束 等 ) 以 及 主键 、 外 键 等 
用 例 典型 事件 流 信息 连接 数据 源 
Step3: 获取 并 返回 数据 库 名 
Step7: 数据 处 理 中 心 存储 数据 源 元 数据 
Step2: 数据 源 连 接 失 败 ， 尝 试 重新 连接 
Bui Step6: 数据 处 理 中 心 存储 数据 源 数据 完成 异常 时 提示 抽取 异常 
前 置 条 件 数据 处 理 中 心 已 获取 数据 源 访问 信息 〈 数 据 源 已 注册 ) 
后 置 条 件 访问 完成 后 断 开 数 据 源 连 接 
假设 无 
4. 建立 映射 模式 


Step2: 依据 数据 处 理 中 心 存储 的 数据 源 访问 





Step4: 获取 并 返回 数据 库 表 名 
Step5: 获取 并 返回 属性 详细 信息 
Step6: 获取 并 返回 主键 外 键 等 其 他 约束 信息 





建立 映射 模式 功能 主要 是 为 了 解决 数据 转换 中 各 异 构 数据 源 中 数据 模型 的 异 构 性 ， 使 用 以 局 
部 模式 实体 存储 数据 源 局 部 模式 以 实现 映射 ， 既 最 大 限度 地 保留 原 数据 源 的 各 种 信息 ， 又 保证 这 
种 映射 没有 过 多 的 元 余 信息 。 数 据 源 的 全 局 模式 包括 数据 源 元 数据 全 局 模式 和 领域 知识 元 数据 全 


局 模式 两 个 方面 。 
建立 映射 模式 的 详细 用 例 规约 如 表 9.4 所 示 。 


335 


实战 大 数据 


表 9.4 建立 映射 模式 详细 用 例 规约 






































用 例 编号 UC4 
用 例 名 称 建立 映射 模式 
参与 者 数据 处 理 中 心 
描述 访 用 例 描 述 了 数据 处 理 中 心 依据 抽取 的 数据 源 元 数据 信息 建立 映射 模式 的 过 程 
参与 者 动作 系统 响应 
Step1: 数据 处 理 中 心 建立 模式 映射 
| Stepz 数据 处 理 中 心 读 取 存储 的 数据 源 元 数据 
用 例 典型 事件 流 Step3 获取 并 返回 数据 源 元 数据 等 信息 
Step4 数据 处 理 中 心 依据 返回 的 数据 源 元 信息 
建立 映射 模式 
Step3， 数据 源 元 数据 信息 获取 失败 
可 选 事件 流 。。 | Step4， 数 据 处 理 中 心 建立 映射 模式 失败 
前 置 条 件 数据 处 理 中 心 已 抽取 数据 源 元 数据 信息 
后 置 条 件 无 
假设 无 
5. 抽取 数据 源 数 据 信息 
抽取 数据 源 数据 信息 功能 主要 是 获取 数据 源 中 存储 的 数据 信息 以 供 后 续 的 转换 和 应 用 等 。 抽 
了 数据 源 数据 信息 可 以 通过 服务 数据 对 象 (Service Data Object SDO)、 数 据 访问 服务 (Data Access 


Service，DAS) API 读 取 数 据 源 中 的 数据 信息 。 
抽取 数据 源 数据 信息 的 详细 用 例 规 约 如 表 9.5 所 示 。 


表 9.5 ”抽取 数据 源 数据 信息 详细 用 例 规约 


用 例 典 型 事件 流 











抽取 数据 源 数据 信息 
数据 处 理 中 心 、 数 据 源 
该 用 例 描述 了 数据 处 理 中 心 抽取 数据 源 数据 信息 的 过 程 

















参与 者 动作 系统 响应 


Step1: 数据 处 理 中 心 获取 数据 源 数 据 信息 

Step2: 依据 数据 处 理 中 心 存储 的 数据 源 访问 
信息 连接 数据 源 
Step3: 获取 并 返回 数据 源 数据 信息 





























Step4: 数据 处 理 中 心 读 取 数 据 源 数 据 信 息 
Step2: 数据 源 连接 失败 ， 尝 试 重新 连接 




















ai Step4: 数据 处 理 中 心 读 取 数 据 源 数据 异常 时 提示 抽取 数据 源 数据 异常 
前 置 条 件 数据 处 理 中 心 已 获取 数据 源 访问 信息 (数据 源 已 注册 ) 

后 置 条 件 访问 完成 后 断 开 数 据 源 连 接 

假设 无 
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6. 转换 数据 

转换 数据 功能 是 最 重要 的 一 个 功能 ， 主 要 是 用 于 在 异 构 数据 源 数 据 间 的 转换 。 转 换 过 程 中 如 
果 异 构 数据 源 间 的 数据 表达 方式 一 致 ， 则 在 转换 过 程 中 直接 把 原 数据 源 的 数据 复制 到 目标 数据 源 
以 供 后 续 的 应 用 ， 否 则 按照 预先 定义 好 的 原 数据 源 数 据 表达 方式 到 目标 数据 源 数 据 的 表达 方式 的 
转换 过 程 来 实现 转换 ， 也 可 以 像 关系 数据 库 中 的 存储 过 程 一 样 ， 由 用 户 实现 转换 方式 并 注册 到 数 
据 处 理 中 心 ， 然 后 主动 调用 来 转换 。 

转换 数据 的 详细 用 例 规约 如 表 9.6 所 示 。 


表 9.6 ”转换 数据 详细 用 例 规约 





uca 

Er 

数据 处 理 中 心 、 数 据 应 用 

该 用 例 描述 了 数据 处 理 中 心 按照 且 射 模式 中 的 信息 对 原 数据 源 数据 转换 的 过 程 
参与 者 动作 系统 响应 


Step1: 数据 处 理 中 心 获取 原 数据 源 数据 信息 


Step2: 读 取 并 返回 数据 处 理 中 心 请 求 的 原 
数据 源 数据 信息 


用 例 典型 事 | step3: 扫描 映射 模式 ， 比 较 源 目标 数据 源 


件 流 间 的 一 致 性 
Step4: 选择 数据 转换 方式 


Step5: 按照 Step4 中 选择 的 转换 方式 实现 数 
据 的 转换 并 返回 转换 后 的 数据 


Step6: 数据 处 理 中 心 应 用 或 存储 转换 后 的 数据 


可 选 事件 流 Step2: 数据 源 数据 读 取 失 败 ， 转 换 失 败 
” Step4: 数据 处 理 中 心 不 存 在 符合 要 求 的 转换 操作 时 ， 提 示 用 户 注册 转换 过 程 或 退出 


数据 处 理 中 心 已 获取 数据 源 访问 信息 数据 源 已 注册 ) 





前 置 条 件 














原 数据 源 可 连接 
后 置 条 件 访问 完成 后 断 开 数据 源 连 接 
假设 无 

7. 存储 数据 


存储 数据 功能 主要 用 来 存储 抽取 的 数据 源 元 数据 信息 以 及 异 构 数据 源 间 的 数据 转换 信息 等 。 
数据 的 存储 可 以 借助 于 Hadoop 平台 下 的 HBase 数据 库 实现 。 
存储 数据 的 详细 用 例 规 约 如 表 9.7 所 示 。 
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表 9.7 ”存储 数据 详细 用 例 规约 





用 例 编号 UC-7 

用 例 名 称 存储 数据 

参与 者 数据 处 理 中 心 、 数 据 应 用 

描述 该 用 例 描述 了 数据 处 理 中 心 存储 数据 的 过 程 

参与 者 动作 系统 响应 
Step1: 数据 处 理 中 心 提 交 并 存储 数据 

















Step2: 接收 数据 处 理 中 心 提交 的 数据 并 对 数据 





用 例 典型 事 进行 有 效 性 验证 
件 流 Step3: Step2 校 验 成 功 完 成 后 调用 HBase 数据 
存储 接口 完成 数据 的 存储 





Step4: 存储 完成 后 提示 存储 成 功 
Step5: 数据 处 理 中 心 应 用 或 存储 数据 完成 
可 选 事件 流 Step2: 数据 有 效 性 校 验 失败 时 存储 失败 并 返回 
Step3: 调用 HBase 数据 存储 接口 存储 数据 失败 时 ， 数 据 存 储 失败 并 返回 
前 置 条 件 数据 处 理 中 心 连接 HBase 数据 库 成 功 
后 置 条 件 访问 完成 后 断 开 HBase 数据 库 连接 
假设 无 











9.2.2 ” 非 功 能 性 需求 分 析 

在 数据 统一 访问 以 及 灵活 转换 系统 中 的 非 功能 性 需求 主要 体现 在 数据 质量 方面 。 下 面 主要 从 
4 个 方面 来 介绍 数据 质量 的 基本 要 素 以 及 如 何 评估 数据 的 质量 。 这 4 个 方面 主要 是 完整 性 、 一 致 
性 、 准 确 性 以 及 及 时 性 ， 它 们 共同 构成 了 数据 质量 的 4 个 基本 要 素 ， 四 要 素 与 数据 质量 的 关系 图 
如 图 9.4 所 示 。 

















图 94 数据 质量 关系 图 
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1. 完整 性 

完整 性 用 来 描述 数据 的 记录 和 信息 是 否 完整 ， 是 否 存 在 缺失 的 情况 。 

数据 的 缺失 主要 有 记录 的 缺失 和 记录 中 某 个 字段 信息 的 缺失 ， 两 者 都 会 造成 统计 结果 的 不 准 
确 ， 所 以 完整 性 是 数据 质量 最 基础 的 保障 ， 而 对 完整 性 的 评估 相对 比较 容易 。 

2. 一 致 性 

一 致 性 用 来 描述 数据 的 记录 是 否 符合 规范 ， 是 否 与 前 后 及 其 他 数据 集合 保持 统一 。 

数据 的 一 致 性 主要 包括 数据 记录 的 规范 和 数据 逻辑 的 一 致 性 。 数 据 记 录 的 规范 主要 是 数据 编 
码 和 格式 的 问题 ， 比 如 网 站 的 用 户 ID 是 15 位 的 数字 、 商 品 ID 是 10 位 数字 ， 商 品 包括 20 个 类 
目 、IP 地 址 一 定 是 用 “, ”分 隔 的 4 个 0~255 的 数字 组 成 ， 以 及 一 些 定义 的 数据 约束 ， 比 如 完整 
性 的 非 空 约束 、 唯 一 值 约 束 等 ; 数据 逻辑 性 主要 是 指标 统计 和 计算 的 一 致 性 ， 比 如 PV>=UV， 新 
用 户 比例 在 0~1 之 间 等 。 数 据 的 一 致 性 审核 是 数据 质量 审核 中 比较 重要 ， 也 是 比较 复杂 的 一 块 。 


3. 准确 性 


准确 性 用 来 描述 数据 中 记录 的 信息 和 数据 是 否 准确 ， 是 否 存 在 异常 或 者 错误 的 信息 。 

导致 一 致 性 问题 的 原因 可 能 是 数据 记录 的 规则 不 一 ， 但 不 一 定 存在 错误 ， 而 准确 性 关注 的 是 
数据 记录 中 存在 的 错误 ， 比 如 字符 型 数据 的 乱码 现象 也 应 该 归 到 准确 性 的 考核 范畴 ， 另 外 就 是 异 
常 的 数值 ， 异 常 大 或 者 异常 小 的 数值 ， 不 符合 有 效 性 要 求 的 数值 ， 如 访问 量 Visits 一 定 是 整数 、 
年 龄 一 般 在 1~100 之 间 、 转 化 率 一 定 是 0~1 的 值 等 。 对 数据 准确 性 的 审核 有 时 会 遇 到 困难 ， 因 为 
对 于 没有 明显 异常 的 错误 值 我 们 很 难 发 现 。 


4. 及 时 性 


及 时 性 用 来 描述 数据 从 产生 到 可 以 查看 的 时 间 间 隔 ， 也 叫 数据 的 延 时 时 长 。 

虽然 说 分 析 型 数据 的 实时 性 要 求 并 不 是 太 高 ， 但 并 不 意味 着 就 没有 要 求 ， 分 析 师 可 以 接受 当 
天 的 数据 要 第 二 天 才能 查看 ， 但 如 果 数 据 要 延 时 两 三 天 才能 出 来 ， 或 者 每 周 的 数据 分 析 报 告 要 两 
周 后 才能 出 来 ， 那 么 分 析 的 结论 可 能 已 经 失去 时 效 性 ， 分 析 师 的 工作 只 是 徒劳 ， 同 时 ， 某 些 实时 
分 析 和 决策 需要 用 到 小 时 或 者 分 钟 级 的 数据 ， 这 些 需求 对 数据 的 时 效 性 要 求 极 高 ， 所 以 及 时 性 也 
是 数据 质量 的 组 成 要 素 之 一 。 


9.2.3 总 体 设计 


基于 之 前 对 数据 统一 访问 与 转换 平台 的 需求 分 析 ， 得 出 系统 的 功能 性 能 等 要 求 ， 并 提出 基于 
服务 数据 对 象 (SDO) 的 数据 统一 访问 与 转换 平台 总 体 设计 方案 。 
根据 对 数据 转换 等 相关 问题 的 分 析 ， 数 据 统 一 访问 与 转换 平台 需要 满足 以 下 一 些 基本 的 要 
求 。 
统一 性 。 对 异 构 数 据 源 数据 进行 统一 ， 应 该 挖 气 异 构 数 据 源 之 间 业 务 逻 辑 或 数据 结构 的 内 
在 关系 ， 使 得 整合 后 的 数据 成 为 建立 在 一 定 联 系 上 的 整体 。 
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完整 性 。 为 了 满足 各 种 应 用 处 理 以 及 发 布 的 要 求 ， 整 合 后 的 数据 必须 保证 尽 可 能 的 完整 
性 ， 包 括 数据 完整 性 和 约束 完整 性 。 

一 致 性 。 不 同 数 据 源 之 间 可 能 存在 着 语义 上 的 区 别 ， 整 合 后 的 数据 应 该 根据 一 定 的 数据 转 
换 模式 和 业务 规则 进行 统一 的 数据 结构 和 字段 语义 编码 转换 。 

安全 性 。 由 于 数据 源 来 源 不 统一 ， 某 些 数据 存在 一 定 的 安全 性 ， 因 此 在 实现 数据 共享 的 同 
时 必须 充分 保证 相关 数据 的 隔离 性 。 

准确 性 。 数据 统一 平台 需要 能 够 提供 给 用 户 准确 的 数据 ,分布 式 查询 系统 的 正确 性 依赖 于 
正确 的 查询 分 解 、 局 部 查询 和 查询 结果 汇总 。 

访问 透明 性 。 系 统 必须 提供 查询 的 透明 性 ， 用 户 不 需要 理解 系统 的 结构 ， 使 用 系统 的 统一 
接口 就 实现 正确 的 查询 请 求 ， 并 由 系统 透明 地 返回 查询 结果 . 

及 时 性 。 在 大 数据 时 代数 据 源 进行 联合 查询 中 最 重要 的 问题 。 系统 必须 能 够 尽量 降低 对 系 
统 资源 的 占用 以 及 响应 时 间 。 


首先 来 描述 数据 统一 访问 与 转换 平台 的 系统 数据 流 图 ， 如 图 9.5 所 示 。 


(w ) 


油 完 匡 潢 测 


元 数据 信息 
数据 源 信息 避 数据 处 理 平台 目标 数据 | 数据 应 用 


证 完 哎 涤 剂 ， 
证 完 灌 注 训 | 


出 
洋 
第 
带 
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9.5 数据 统一 访问 与 转换 平台 数据 流 图 


数据 源 是 数据 处 理 中 心 的 基础 ， 用 户 往 数据 处 理 中 心 注册 数据 源 信息 后 ， 数 据 处 理 中 心 从 数 
据 源 抽取 元 数据 信息 并 存储 元 数据 信息 , 然后 通过 元 数据 管理 模块 创建 异 构 数据 源 间 的 映射 模式 。 
在 用 户 选 择 数据 转换 操作 后 ， 在 数据 处 理 中 心 处 理 数据 转换 过 程 中 ， 数 据 处 理 中 心 读 取 元 数据 以 
及 相应 的 映射 模式 实现 异 构 数据 的 转换 过 程 。 最 后 数据 处 理 中 心 将 转换 后 的 目标 数据 返回 给 用 户 
应 用 或 者 将 目标 数据 存储 到 目标 数据 库 中 。 

在 介绍 了 数据 统一 访问 与 转换 的 数据 流 图 后 ， 根 据 前 面 的 要 求 ， 对 数据 统一 访问 与 转换 平台 
的 总 体系 统 设计 架构 图 如 图 9.6 所 示 。 
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图 9.6 数据 统一 访问 与 转换 架构 图 


从 数据 统一 访问 与 转换 平台 的 系统 设计 架构 图 可 以 看 出 整体 架构 由 7 部 分 组 成 :数据 源 部 分 、 
元 数据 抽取 管理 部 分 、 数 据 抽 取 管 理 、 数 据 转换 管理 、 模 式 映射 管理 以 及 数据 存储 管理 和 目标 数 
据 应 用 。 

其 中 元 数据 抽取 管理 部 分 和 数据 抽取 管理 构成 了 数据 源 访问 模块 ， 数 据 访问 模块 负责 根据 所 
选择 的 数据 源 的 类 型 ， 获 取 元 数据 信息 ， 以 及 运行 时 与 数据 源 交 互 完成 数据 抽取 的 工作 。 在 源 元 
数据 信息 抽取 和 数据 源 数 据 信息 抽取 过 程 中 主要 使 用 服务 数据 对 象 《SDO) 和 数据 访问 服务 
(DAS ) 来 实现 上 述 要 求 。 

模式 映射 管理 和 数据 转换 管理 组 成 数据 转换 管理 模块 ， 数 据 转换 管理 模块 中 用 户 需 要 定义 各 
转换 节点 的 转换 规则 ， 创 建 任务 的 工作 流 ， 依 据 模式 映射 构建 从 源 到 目标 的 字段 映射 转换 等 ， 再 
将 这 些 映 射 规则 〈 元 数据 ) 存储 在 元 数据 管理 模块 中 ; 用 户 在 执行 任务 时 ， 系 统 从 元 数据 管理 模 
块 中 查询 转换 映射 规则 并 完成 数据 的 转换 。 该 模块 中 使 用 的 技术 主要 有 分 布 式 云 计 算 Hadoop 平 
台 、HBase 数据 库 技术 以 及 分 布 式 MapReduce 计算 框架 。 

元 数据 管理 与 模式 映射 管理 组 成 了 模式 管理 模块 ， 模 式 管理 模块 中 元 数据 管理 模块 主要 负责 
元 数据 的 抽取 和 解析 ， 这 里 的 元 数据 主要 包括 数据 源 信息 描述 、 目 标 信息 描述 ， 模 式 映射 管理 主 
要 是 依据 元 数据 管理 模块 提供 的 元 数据 信息 创建 转换 和 映射 规则 信息 描述 等 。 

数据 存储 管理 主要 负责 模式 映射 管理 模块 创建 的 映射 模式 存储 以 及 转换 规则 、 转 换 中 间 数 据 
的 存储 等 。 
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9.3.1 SDO 编程 技术 
SDO 采用 离线 数据 图 的 设计 理念 。 数 据 图 是 一 组 树 型 结构 或 者 图 型 结构 的 数据 对 象 。 离 线 的 
访问 方式 是 指 客户 端 从 数据 源 提取 并 构建 数据 图 ， 然 后 在 应 用 中 操作 数据 图 ， 并 在 变更 摘要 
(Change Summary) 中 记录 相应 的 数据 操作 , 在 动作 结束 后 由 数据 访问 服务 (Data Access Service) 
批量 地 将 相应 的 改变 反映 回 数据 源 ， 其 中 数据 源 可 以 是 异 构 的 ， 并 不 仅仅 限于 关系 数据 库 。SDO 
的 基本 结构 如 图 9.7 所 示 。 


数据 库 


JDBC/ODBC 


DataGraph Databs 
ata0bject XMLDB 
Kpath/XQuery 
家 户 Data Access 
ey Service ocal E 
CDAS) JB 


的 Change 和 
Summary eb Servic 


CCI/Proprietary 


图 9.7 SDO 的 基本 结构 























SDO 的 数据 表现 形式 基于 数据 对 象 (Data Object) 和 数据 图 (Data Graph) 的 概念 ， 其 封装 
形式 与 Java 类 和 XML 有 水 到 渠 成 的 映射 关系 。 同 时 ，SDO 提供 了 丰富 的 数据 操作 接口 一 一 动态 
接口 和 静态 接口 ， 还 可 以 用 XPath 来 直接 访问 相应 的 数据 对 象 属性 。 

如 图 9.8 所 示 ，SDO 有 下 面 一 些 主要 部 分 。 
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1. SDO 的 基本 概念 


(1) 数据 图 (Data Graph) 

数据 图 是 一 组 提供 组 件 之 间或 层 之 间 的 传输 单元 的 数据 , 数据 图 是 一 个 描述 数据 的 分 层 结构 ， 
数据 图 记录 所 有 对 数据 的 更 改 ， 包 括 新 的 数据 对 象 、 被 更 改 的 数据 对 象 以 及 被 移 除 的 数据 对 象 称 
作 变 更 摘要 (Change Summary ) 的 结构 。 变 更 摘要 记录 了 数据 图 中 所 有 数据 对 象 的 历史 更 改 信息 。 
此 外 ， 由 于 数据 图 是 由 数据 对 象 组 成 的 ， 因 此 它 是 可 序列 化 的 。 数 据 图 结构 如 图 9.9 所 示 。 


图 9.8 SDO 内 部 组 成 关系 


DataGraph 








RootObject ChangeSummary 


图 99 SDO 数据 图 结构 
数据 图 由 DAS 生成 ， 供 SDO 客户 使 用 。 修 改 后 ， 数 据 图 被 回 传 给 DAS 更 新 数据 源 。SDO 
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客户 可 以 遍历 数据 图 ， 读 取 和 修改 数据 图 中 的 数据 对 象 。 当 在 应 用 程序 组 件 〈 比 如 服务 调用 期 间 
的 Web 服务 请 求 者 和 提供 者 ) 之 间 进 行 传输 、 组 件 和 DAS 之 间 进 行 传输 (或 者 保存 到 磁盘 ) 的 
时 候 ， 数 据 图 被 序列 化 为 XML。SDO 规范 提供 了 序列 化 的 XML Schema。 

数据 访问 服务 (Data Access Service，DAS) 是 SDO 离线 访问 模式 的 一 个 不 可 或 缺 的 部 分 ， 
尽管 现在 还 不 是 SDO 规范 中 的 一 部 分 。 数 据 访问 服务 可 以 从 后 端 数据 源 建 立 数据 图 和 数据 对 象 ， 
并 且 将 其 存 回 相应 的 数据 源 。DAS 支持 基于 变更 摘要 的 增 量 更 新 。 

根据 SDO 的 思路 ，SDO 将 通过 SDO 从 各 种 数据 源 ， 或 者 后 端 关系 数据 库 ， 或 者 XML 文件 
等 得 到 一 个 Data Graph 传 到 前 端 。 因 为 Data Graph 里 面 有 一 个 根 数据 对 象 ， 由 于 可 以 从 根 数据 对 
象 得 到 所 有 其 他 的 数据 对 象 ， 这 样 从 一 个 Data Graph 对 象 就 可 以 得 到 所 有 的 数据 对 象 了 。 


(2) 数据 对 象 

数据 对 象 是 SDO 的 基本 组 件 。 简 单 地 说 ， 它 是 由 属性 的 键 / 值 对 组 成 的 ， 每 个 值 都 可 以 是 原 
始 的 数据 类 型 ， 或 者 是 另 一 个 数据 对 象 。 数 据 对 象 提供 了 易于 使 用 的 创建 (createDataObject) 和 
删除 (delete) 方法 ， 获 得 自身 类 型 〈 实 例 类 、 名 称 、 属 性 和 名 称 空间 ) 的 反射 方法 。 数 据 对 象 都 
链接 在 一 起 ， 包 含 在 数据 图 中 。 数 据 对 象 是 可 序列 化 的 。 

通常 ， 人 们 使 用 传统 的 Java 对 象 (POJO 或 Java beans) 或 是 传统 的 Java 接口 (POJI) 来 以 
一 种 持久 性 -机 制 -中 立 的 风格 表示 数据 〈 不 久 将 更 多 地 用 于 关系 型 和 XML 数据 )。 举 例 来 说 ， 人 
们 为 了 使 用 POJO 普遍 会 构造 “数据 传输 对 象 ”。 我 们 称 Java bean 类 型 的 API 为 “静态 的 ” 因 
为 预先 定义 好 的 具有 一 系列 属性 或 getter/setter 方法 ) 的 数据 类 型 已 经 存在 了 。 然 而 ， 静 态 数据 
API 并 不 总 能 执行 ， 因 为 有 时 Java 类 甚至 还 并 不 存在 。 在 许多 动态 查询 中 ， 返 回 数据 的 形式 并 不 
是 已 知 的 预先 类 型 , 这 样 就 不 能 将 数据 填写 到 已 经 存在 的 Java 类 中 。 另外, 数据 结构 是 可 扩展 的 ; 
例如 ， 对 于 XML 数据 ， 在 剖析 它 之 前 ， 通 常 不 知道 它 的 精确 类 型 〈 假 定 它 的 XML 模式 结构 是 
可 扩展 的 )。 这 就 是 SDO 数据 对 象 接口 的 便利 之 处 : 它 提 供 了 “动态 的 ”数据 API。 当 您 需要 产 
生 一 个 能 支持 包括 动态 查询 、 未 知 数据 类 型 和 可 括 展 模式 等 情况 的 通用 框架 时 ， 有 一 个 动态 的 数 
据 API 会 更 加 有 用 。 


(3) 变更 摘要 

变更 摘要 包含 在 数据 图 中 ， 表 示 对 DAS 返回 的 数据 图 的 修改 。 变 更 摘要 最 初 是 空 的 ， 随 着 
数据 图 的 变化 逐渐 填充 。 在 后 台 更 新 时 ，DAS 使 用 变更 摘要 将 修改 应 用 于 数据 源 。 变 更 摘要 提供 
了 数据 图 中 被 修改 的 属性 (包括 原来 的 值 )、 新 增 和 删除 的 数据 对 象 的 列表 ， 从 而 使 DAS 以 递增 
方式 高 效 地 更 新 数据 源 。 只 有 当 变 更 摘要 日 志 功能 被 激活 时 ， 才 会 将 信息 添加 到 数据 图 的 变更 摘 
要 中 。 变 更 摘要 提供 了 让 DAS 打开 和 关闭 日 志 功 能 的 方法 。 

(4) 变更 摘要 接口 

变更 摘要 接口 提供 了 下 列 方法 : 检查 日 志 记 录 的 状态 ， 打开、 关闭 日 志 记 录 ， 取 消 自 日 志 开 
始 记录 起 所 有 在 日 志 中 的 变化 , 返回 根 数据 对 象 和 数据 图 返回 已 被 修改 、 创 建 和 删除 的 数据 对 象 。 

标识 发 生 了 什么 变化 〈 修 改 、 创 建 、 删 除 ) 为 被 改变 和 被 删除 的 数据 对 象 返回 旧 值 取 出 过 去 
值 时 ， 过 去 值 保存 在 以 ChangeSummary.Setting 作为 接口 的 实例 中 ， 如 下 所 示 。 
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变更 摘要 (Change Summary) 中 的 API 如 下 所 示 。 





(5) 属性 

数据 对 象 用 一 系列 属性 保存 其 内 容 。 每 个 属性 都 有 一 个 类 型 ， 该 类 型 既 可 以 是 基本 类 型 (如 
int) 也 可 以 是 通用 数据 类 型 (如 Date)， 如 果 引 用 的 话 ， 还 可 以 是 其 他 数据 对 象 类 型 。 每 个 数据 
对 象 都 为 属性 提供 了 访问 和 设置 方法 〈getter 和 setter)。 这 些 访问 器 方法 有 不 同 的 重 载 版 本 ， 可 
以 通过 传递 属性 名 (String)、 编 号 (int) 或 者 属性 元 对 象 本 身 来 访问 属性 。String 访问 器 还 允许 
使 用 类 XPath 的 语法 访问 属性 。 

属性 的 主要 作用 是 将 DataObject 和 下 级 的 DataObject 关联 起 来 , 或 者 将 DataObject 和 其 所 包 
含 的 数据 关联 起 来 。 获 取 数 据 对 象 属性 〈Property)， 可 以 通过 DataObject.getInstanceProperty() 方 
法 得 到 这 个 DataObject 范围 内 属性 的 List， 然 后 遍历 List 就 可 以 得 到 Property。 如 果 知 道 属性 的 
名 字 ， 可 以 直接 通过 getInstanceProperty 来 调用 。 

可 以 通过 属性 得 到 下 面 的 DataObject 或 者 值 。 
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首先 需要 判断 Many， 它 对 应 xsd 文件 里 面 的 如 下 内 容 : 


<xsd:element name="user" type=" userType" minOccurs="0" maxOccurs="unbounded"/> 


如 果 isMany 返回 true， 那 么 需要 使 用 DataObject.getList (property) 的 方法 来 得 到 下 面 
DataObject 的 List， 如 果 isMany 返回 false， 那 么 需要 getDataObject.getDataObject (Property) 的 
方法 来 得 到 单个 DataObject。 

属性 的 API 如 下 所 示 。 


getName() 返回 属性 名 。 

getType() 返回 属性 类 型 。 

isMany() 如 果 该 属性 是 多 值 则 返回 true， 否 则 返回 false。 

isContainment() 如 果 属 性 为 一 个 包含 引用 返回 true， 对 数据 类 型 属性 总 是 false 

isReadOnly() 如 果 属 性 值 无 法 通过 SDO API 进行 修改 则 返回 true。 

getContainingType() 返回 声明 此 属性 的 类 型 。 

getAliasNames() 返回 该 属性 的 别名 列表 。 

getOpposite() 如 果 该 属性 为 双向 的 ， 则 返回 对 应 属性 ， 否 则 返回 null。 
getDefault() ( 以 对 象 类 型 ) 返回 默认 值 。 

isNullable( 如 果 属 性 的 实例 可 以 设置 为 null 则 返回 true。 

isOpenContent() 如 果 该 属性 可 设置 为 开放 内 容 则 返回 true。 

getInstanceProperties() 返回 一 个 该 属性 可 用 的 实例 属性 的 只 读 列 表 。 

Get(Property property) 返回 该 属性 的 被 指定 实例 属性 的 值 。 


(6) 类 型 

SDO 数据 类 型 有 用 户 的 数据 类 型 (可 能 是 一 个 复杂 数据 类 型 complexType， 也 可 能 是 一 个 简 
单 类 型 simpleType) 和 SDO 本 身 支持 的 基本 数据 类 型 。 数 据 类 型 就 是 一 个 数据 对 象 的 描述 配置 ， 
当 读 入 具体 数据 时 就 可 以 初始 化 一 个 数据 对 象 (DataObject)。 

SDO 的 类 型 可 以 和 编程 语言 中 类 型 的 概念 或 者 数据 建 模 语言 中 类 型 的 概念 相 类 比 。 具体 如 表 
9.8 所 示 。 


表 9.8 SDO 相关 类 型 对 比 





属性 


Cri mR | bao 和 An 


Struct 的 域 
关系 数据 库 Table Column 
类 型 可 以 通过 getType() 接 口 获取 。 从 数据 对 象 可 以 得 到 该 数据 对 象 的 类 型 只 能 有 一 个 类 型 ， 
因此 实例 化 一 个 数据 对 象 事实 上 是 对 一 个 类 型 的 实现 ， 从 数据 对 象 得 到 类 型 的 API 为 
DataObject.getType()。 如 果 知 道 了 一 个 数据 对 象 的 属性 ， 也 就 可 以 从 属性 直接 得 到 对 应 该 属性 的 
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类 型 。 因 为 实例 化 一 个 属性 时 , 事实 上 也 是 对 该 属性 类 型 的 一 个 实现 。 从 属性 得 到 类 型 的 API 为 : 
Property.getType()。 
类 型 的 API 如 下 。 


getName() 返回 类 型 的 名 字 。 

GetURI() 返回 类 型 的 URI.。 

getInstanceClass() 返回 用 来 实现 SDO 类 型 的 类 。 

isInstance(Object object) 如 果 指 定 的 对 象 是 该 类 型 的 一 个 实例 ， 则 此 方法 返 true。 

isDataType() 如 果 该 类 型 指定 了 数据 类 型 则 这 个 方法 返回 tue， 为 数据 对 象 则 返回 false。 

isSequenced() 如 果 该 类 型 指定 了 有 序 的 数据 对 象 ， 则 此 方法 返回 true。 当 方法 为 true 时 ， 

一 个 数据 对 象 可 以 返回 一 个 序列 。 

isOpen() 如 果 该 类 型 允许 开放 内 容 ， 则 返回 true。 否 则 返回 false。 

e dataObject.getInstanceProperties() 必须 与 该 类 型 的 任何 一 个 数据 对 象 的 
dataObject.getType0.getProperties() 返 回 相 同 的 值 。 

日 isAbstract() 如 果 这 个 类 型 是 抽象 类 型 则 返回 true, 说 明 该 类 型 是 不 可 实例 化 的 。 抽 象 类 型 

不 能 用 在 数据 对 象 或 数据 工厂 的 create 方法 中 。 抽象 类 型 一 般 作 为 那些 可 实例 化 类 型 的 基 
类 。 

@ getBaseTypes() 返回 该 类 型 的 基 类 列表 。 如 果 没 有 任何 基 类 ， 则 列表 为 空 。XSD 的 
<extension>、<restriction> 和 Java 的 extends 关键 字 映 射 到 此 基 类 列表 。 

@ ”getAliasNames() 返回 该 类 型 的 别名 列表 。 如 果 没 有 任何 别名 ， 则 列表 为 空 。 

日 getProperties() 返回 一 个 该 类 型 的 所 有 属性 的 只 读 列 表 ,包括 那些 在 基 类 型 中 声明 的 属性 , 

e@ getDeclaredProperties() 返回 一 个 在 该 类 型 中 定义 的 所 有 属性 的 只 读 列表 不 包括 那些 在 基 
类 型 中 声明 的 属性 。 

egetProperty(String propertyName) 返回 指定 的 属性 ， 如 果 不 存 在 给 定名 字 的 属性 ， 则 返回 
null。 

egetInstanceProperties() 返回 一 个 该 类 型 可 用 的 实例 属性 的 只 读 列表 。 

® Get(Property property) 返回 该 类 型 的 指定 实例 属性 的 值 。 


(7) 序列 

序列 概念 的 引入 是 为 了 保持 数据 对 象 中 属性 的 顺序 。 在 数据 对 象 中 ， 如 果 某 个 属性 被 标明 为 
多 值 属性 ， 则 其 多 个 值 的 顺序 是 由 数据 对 象 维护 的 。 但 是 , 这 一 顺序 并 没有 在 不 同属 性 之 间 维护 。 
如 果 一 个 数据 对 象 的 类 型 被 定义 为 顺序 ， 则 有 : 


getType().isSequenced()=true 


那么 在 不 同 的 属性 之 间 也 会 维护 一 定 的 顺序 。 这 一 功能 可 以 支持 某 些 半 结构 化 数据 的 表示 。 
某 个 数据 对 象 有 两 个 多 值 属性 , numbers 和 letters。 那 么 对 于 这 样 一 组 值 {1, “annotation text”， 
“A”,2,“B”}， 在 数据 对 象 中 的 表示 是 ， 属 性 numbers 有 两 个 值 1 和 2， 属 性 letters 有 两 个 值 : 
A 和 B， 还 有 一 个 字符 串 “annotation text”。 其 中 ，1 和 2 的 顺序 ，A 和 B 的 顺序 是 可 以 保障 的 ， 
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但 是 这 组 值 的 整体 顺序 已 然 不 存在 。 如 果 这 一 数据 对 象 被 声明 为 一 个 序列 ， 则 序列 会 保持 这 样 的 
设置 : {<numbers,1>,<null, “annotation text”>,<letters, “A”>,<numbers，2>,<letters,“B” >}。 


序列 的 接口 如 下 。 


@ ”size( 方 法 返回 序列 中 条 目的 数量 。 

getProperty(int index) 访 问 器 返回 指定 索引 位 置 的 属性 ， 如 果 是 非 结 构 化 文本 条 目 则 返回 

null。 

getValue(int index) 访 问 器 返回 指定 索引 位 置 的 值 。 

setValue(int index, Object value) 访 问 器 更 新 指定 索引 位 置 的 值 ， 并 保持 序列 的 位 置 。 

add0 访 问 器 添加 到 序列 的 尾 端 。 

addText(int index, String text) 访 问 器 往 指 定 索 引 位 置 添加 非 结 构 化 文本 。 

addText(String text) 访问 器 往 序 列 尾 端 添加 非 结构 化 文本 。 

其 他 add(int index) 访 问 器 添加 到 序列 中 的 指定 位 置 并 像 java.util.List 一 样 把 此 索引 位 置 后 

的 条 目 上 移 。 

remove0 方 法 移 除 指定 索引 位 置 的 条 目 ， 并 把 此 索引 位 置 后 的 所 有 条 目下 移 。 

e@ move() 方 法 把 条 目 从 一 个 源 索 引 位 置 (fromIndex ) 移动 到 目的 索引 位 置 (toIndex ) ， 把 
fromIndex 索引 后 的 条 目下 移 ， 并 把 toIndex 索引 后 的 条 目 上 移 。 


2. SDO 环境 的 搭建 
要 构造 SDO 环境 ， 首 先 需要 安装 TUSCANY， 可 以 参考 SCA 的 文档 。 


人 OOI， 从 http://tuscany.apache.org/sdo-java-download.html 网 站 上 下 载 Windows Binary 版 本 的 
SDO: tuscany-sdo-1.0-incubating-betal-bin.zip。 
人 2 将 上 述 zip 文 件 解 压 ， 例 如 解压 到 E 盘 ， 则 目录 结构 如 图 9.10 所 示 。 
日 加 tuscany-sdo-1,0-incubating-betal 
DD javadoc 
加 由 b 
DD sample 


图 9.10 解压 目录 结构 
人 3 配置 Tuscany。 


从 菜单 栏 中 选择 Window > Preference ， 在 Preferences 对 话 框 中 选择 Java > Build Path > User 
Libraries 单 击 New 按钮 新 建 一 个 userlibrary 输入 SDO 作为 user library 的 名 字 , 单 击 Add JARs, 
将 E\tuscany-sdo-1.0-incubating-betal\lib 中 所 有 JARs 加 到 该 user library， 如 图 9.11 所 示 。 
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9.11 SDO 的 配置 


个 TT04 到 此 SDO 环境 就 配置 完成 了 , 在 实际 应 用 中 , 需要 将 这 个 user library 添加 到 工程 的 build 
path 中 。 


9.3.2 ”Hadoop MapReduce 框架 


Hadoop MapReduce 是 Google 提出 的 一 个 使 用 简易 的 软件 框架 , 基于 它 写 出 来 的 应 用 程序 能 够 运 
行 在 由 上 千 台 商用 机 器 组 成 的 大 型 集群 上 ， 并 以 一 种 可 靠 容错 的 方式 并 行 处 理 上 T 级 别 的 数据 集 。 

MapReduce 是 一 个 编程 模型 ， 也 是 一 个 处 理 和 生成 超大 数据 集 的 算法 模型 的 相关 实现 。 概 念 
“Map (映射 )” 和 “Reduce〈 化 简 )”， 以 及 它们 的 主要 思想 ， 都 是 从 函数 式 编程 语言 以 及 矢量 编 
程 语言 借 来 的 特性 。 采用 MapReduce 架构 可 以 使 那些 没有 并 行 计算 和 分 布 式 处 理 系 统 开发 经 验 的 
程序 员 有 效 利用 分 布 式 系统 的 丰富 资源 。 


1. 分 布 式 数据 处 理 MapReduce 简介 


在 过 去 的 5 年 里 ，Google 的 很 多 程序 员 为 了 处 理 海量 的 原始 数据 ， 已 经 实现 了 数 以 百 计 的 、 
专用 的 计算 方法 。 这 些 计 算 方法 用 来 处 理 大 量 的 原始 数据 ， 比 如 ， 文 档 抓 取 《〈 类 似 网 络 爬 虫 的 程 
序 )、Web 请 求 日 志 等 ; 也 用 来 计算 处 理 各 种 类 型 的 衍生 数据 ， 比 如 倒 排 索引 、Web 文档 的 图 形 
结构 的 各 种 表示 形式 、 每 台 主 机 上 网 络 爬 虫 抓 取 的 页 面 数量 的 汇总 、 每 天 被 请 求 的 最 多 的 查询 的 
集合 等 。 大 多 数 这 样 的 数据 处 理 运算 在 概念 上 很 容易 理解 ， 然 而 由 于 输入 的 数据 量 巨大 ， 因 此 要 
想 在 可 接受 的 时 间 内 完成 运算 ， 只 有 将 这 些 计算 分 布 在 成 百 上 千 的 主机 上 。 如 何 处 理 并 行 计算 ? 
如 何 分 发 数据 ? 如 何 处 理 错误 ? 所 有 这 些 问 题 综 合 在 一 起 ， 则 需要 大 量 的 程序 代码 处 理 ， 因 此 使 
得 原本 简单 的 运算 变 得 难以 处 理 。 
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为 了 解决 上 述 复杂 的 问题 ，Google 设计 了 一 个 新 的 抽象 模型 MapReduce， 使 用 这 个 抽象 模型 ， 
程序 员 只 要 表述 他 想 要 执行 的 简单 运算 即 可 ， 而 不 必 关 心 并 行 计算 、 容 错 、 数 据 分 布 、 负 载 均衡 等 复 
杂 的 细节 。 设 计 这 个 抽象 模型 的 灵感 来 自 Lisp 和 许多 其 他 函数 式 语言 的 Map 和 Reduce 的 原 语 。 

与 传统 的 分 布 式 程序 设计 相 比 ，MapReduce 封装 了 并 行 处 理 、 容 错 处 理 、 本 地 化 计算 、 负 载 
均衡 等 细节 ， 还 提供 了 简单 而 强大 的 接口 。 通 过 这 个 接口 ， 可 以 把 大 数据 量 的 计算 自动 地 并 发 和 
分 布 执行 ， 使 之 变 得 非常 容易 。 另 外 ，MapReduce 也 具有 较 好 的 通用 性 ， 大 量 不 同 的 问题 都 可 以 
简单 地 通过 MapReduce 来 解决 。 

海量 数据 的 运算 大 多 数 都 包含 这 样 的 操作 : 在 输入 数据 的 “逻辑 ”记录 上 应 用 Map 操作 得 出 

-个 中 间 key/value 集合 ， 然 后 在 所 有 具有 相同 key 值 的 value 值 上 应 用 Reduce 操作 ， 从 而 达到 
合并 中 间 的 数据 ， 得 到 一 个 想 要 的 结果 的 目的 。 使 用 MapReduce 模型 ， 再 结合 用 户 实现 的 Map 
和 Reduce 函数 ， 就 可 以 非常 容 地 实现 大 规模 并 行 化 计算 ; 通过 MapReduce 模型 白带 的 “再 次 执 
行 ”(re-execution) 功能 ， 也 提供 了 初级 的 容 灾 方 案 。 

根据 相关 统计 ， 用 户 使 用 Google 搜索 引擎 仅仅 进行 一 次 关键 字 的 查询 ，Google 的 后 台 服 务 
器 都 要 进行 数 以 千 计 的 运算 。 如 此 庞大 而 复杂 的 数据 处 理 量 , 没有 非常 好 的 并 行 处 理 和 负载 均衡 ， 
Google 服务 不 可 能 在 用 户 的 承受 时 间 范 围 内 返回 结果 ， 服 务 器 负荷 过 重 或 者 宕 机 ， 都 会 对 用 户 的 
使 用 体验 造成 很 恶劣 的 影响 。 而 程序 员 使 用 MapReduce 编程 模型 后 ， 所 有 Google 服务 都 保证 了 
稳定 快速 的 响应 。 在 Google 的 集群 上 ， 每 天 都 有 1000 多 个 MapReduce 程序 在 执行 。 


2. 编程 模型 


MapReduce 以 函数 方式 提供 了 Map 和 Reduce 操作 来 进行 分 布 式 计 算 ， 利 用 一 个 输入 
key/value 集合 来 产生 一 个 输出 的 key/value 集合 。MapReduce 模型 可 以 如 下 表示 。 


Map: (kl,v1) -> list(k2,v2) 
Reduce: (k2,1ist(v2)) ->list(v3) 


MapReduce 的 运行 模型 如 图 9.12 所 示 。 


原始 数据 Map 任 务 Reduce 任 务 输出 文件 












































9.12 ”MapReduce 的 运行 模型 
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Map 任务 是 一 类 将 输入 记录 转换 为 中 间 记录 集 的 独立 任务 .用户 自 定义 的 Map 函数 接受 一 个 
输入 的 key/value 值 ， 然 后 产生 一 个 中 间 key/value 值 的 集合 。 输 出 key/value 值 的 类 型 不 需要 与 输 
入 key/value 值 的 类 型 一 致 。MapReduce 库 把 所 有 具有 相同 中 间 key 值 的 value 值 集合 在 一 起 传递 
给 Reduce 函数 。 

Reduce 任务 将 一 组 与 一 个 key 关联 的 中 间 数 值 集 规约 (reduce) 为 一 个 更 小 的 数据 集 。Map 
任务 的 输出 被 排序 后 ， 就 被 划分 给 每 个 Reduce 任务 处 理 。 用 户 自 定义 的 Reduce 函数 接受 一 个 中 
间 key 值 和 相关 的 value 值 的 集合 ， 然 后 合并 这 些 value 值 ， 形 成 一 个 较 小 的 value 值 的 集合 。 一 
般 地 , 每 次 Reduce 函数 调用 只 会 产生 0 个 或 1 个 输出 value 值 。 通常 通过 一 个 迭代 器 把 中 间 value 
值 传递 给 Reduce 函数 ， 这 样 程序 就 可 以 处 理 无 法 全 部 放 入 内 存 中 的 大 量 的 value 值 的 集合 。 


9.3.3 ”HBase 数据 库 技术 


HBase 即 Hadoop Database， 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 
利用 HBase 技术 可 在 廉价 PC Server 上 搭建 起 大 规模 结构 化 存储 集群 。 

HBase 是 Google Bigtable 的 开源 实现 ,类 似 于 Google Bigtable 利用 GFS 作为 其 文件 存储 系统 ， 
HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 ，Google 运行 MapReduce 来 处 理 Bigtable 中 的 海 
量 数据 ，HBase 同样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数据 ，Google Bigtable 利用 
Chubby 作为 协同 服务 ，HBase 利用 Zookeeper 作为 对 应 。 

图 9.13 中 描述 了 Hadoop System 中 的 各 层 系统 , 其 中 HBase 位 于 结构 化 存储 层 , Hadoop HDFS 
为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 ，Hadoop MapReduce 为 HBase 提供 了 高 性 能 的 计算 能 
力 ，Zookeeper 为 HBase 提供 了 稳定 服务 和 failover 机 制 。 








Hadoop 的 系统 环境 
| ETLToos || BIReporting | | RDBMS 
Pig (Data Flow) | Hive (SQL) | Sqoop 














MapReduce (Job Scheduling / Execution System) 








HBase (Column DB) | 








Zookeeper 
(Coordination) 





Avro (Serialization) 


HDFS (Hadoop Distributed File System) 
































图 9.13 ”Hadoop 系统 结构 中 的 HBase 


此 外 ,Pig 和 Hive 还 为 HBase 提供 了 高 层 语言 支持 , 使 得 在 HBase 上 进行 数据 统计 处 理 变 得 
非常 简单 。-Sqoop 则 为 HBase 提供 了 方便 的 RDBMS 数据 导入 功能 , 使 得 传统 数据 库 数据 向 HBase 
中 迁移 变 得 非常 方便 。 

下 面 列 出 了 HBase 访问 接口 。 
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ee Native Java API 最 常规 和 高 效 的 访问 方式 适合 Hadoop MapReduce Job 并 行 批 处 理 HBase 
表 数 据 。 

e@ HBase Shell，HBase 的 命令 行 工 具 ， 最 简单 的 接口 ， 适 合 HBase 管理 使 用 。 

e Thrift Gateway， 利 用 Thrift 序列 化 技术 ， 支 持 CH+、PHP、Python 等 多 种 语言 ， 适 合 其 他 
异 构 系 统 在 线 访问 HBase 表 数 据 。 

@ REST Gateway， 支 持 REST 风格 的 HTTP API 访 问 HBase, 解除 了 语言 限制 。 

e® Pig， 可 以 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 ， 和 Hive 类 似 ， 本 质 最 终 
也 是 编译 成 MapReduce Job 来 处 理 HBase 表 数 据 ， 适 合 做 数据 统计 。 

@ Hive， 当 前 Hive 的 Release 版 本 尚 没有 加 入 对 HBase 的 支持 ， 但 在 下 一 个 版 本 Hive 0.7.0 
中 将 会 支持 HBase， 可 以 使 用 类 似 SQL 语言 来 访问 HBase。 


HBase 系统 架构 如 图 9.14 所 示 。 



























































HRegionServer HRegionServer 

HRegion | | HRegion | ... | HRegion 由 HRegion | | HRegion | .。 | HRegion 

os a 
DataNode DataNode DataNode 四 DataNode 






































图 9.14 HBase 系统 架构 


(1) Client 
HBase Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 ， 对 于 管理 类 操 
作 ，Client 与 HMaster 进行 RPC; 对 于 数据 读 写 类 操作 ，Client 与 HRegionServer 进行 RPC。 
(2) Zookeeper 
Zookeeper Quorum 中 除了 存储 了 -ROOT 表 的 地 址 和 HMaster 的 地 址 ，HRegionServer 也 会 把 
自己 以 Ephemeral 方式 注册 到 Zookeeper 中 ， 使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 
的 健康 状态 。 此 外 ，Zookeeper 也 避免 了 HMaster 的 单 点 问题 。 
(3) HMaster 
HMaster 没有 单 点 问题 ，HBase 中 可 以 启动 多 个 HMaster， 通 过 Zookeeper 的 Master Election 
机 制 保证 总 有 一 个 Master 运行 ，HMaster 在 功能 上 主要 负责 Table 和 Region 的 管理 工作 : 


@ 管理 用 户 对 Table 的 增 、 删 、 改 、 查 操作 。 
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e@ 管理 HRegionServer 的 负载 均衡 ， 调 整 Region 分 布 。 
。 在 Region Split 后 ， 负 责 新 Region 的 分 配 。 
e@ 在 HRegionServer 停机 后 ， 负 责 失效 HRegionServer 上 的 Regions 迁移 。 


(4) HRegionServer 
HRegionServer 主要 负责 响应 用 户 IO 请 求 ， 向 HDFS 文件 系统 中 读 写 数据 ， 是 HBase 中 最 
核心 的 模块 。 


9.3.4 ”模型 驱动 数据 转换 技术 


模型 驱动 架构 (Model Driven Architecture,，MDA) 是 由 对 象 管理 组 织 (OMG) 定义 的 一 个 软 
件 开发 框架 。MDA 是 一 种 基于 UML 以 及 其 他 工业 标准 的 框架 ， 支 持 软件 设计 和 模型 的 可 视 化 、 
存储 和 交换 等 。 与 UML 相 比 ，MDA 能 够 创建 出 机 器 可 读 和 高 度 抽象 的 模型 ， 且 模型 独立 于 具体 
的 实现 技术 ， 以 标准 化 的 方式 储存 。 

如 图 9.15 所 示 ，MDA 中 将 模型 和 元 模型 分 为 三 层 ，M1 层 是 模型 层 ， 是 开发 人 员 直 接 面 对 的 
模型 。M2 层 称 为 元 模型 层 ， 其 中 对 应 的 是 M1 层 模 型 的 元 模型 ， 如 UML 和 SPEM 等 。M2 层 元 模 
型 中 提取 出 不 同 领域 的 抽象 概念 和 关系 结构 ， 为 M1 层 的 建 模 提 供 了 建 模 符号 。M2 层 提 供 对 应 不 
同 领域 的 领域 建 模 语言 。M3 层 是 元 元 模型 层 ， 也 被 称 为 MOF 层 。MOF 提供 了 定义 M2 层 元 模型 
所 需要 的 更 抽象 一 级 的 建 模 支持 。MOF 是 M2 层 中 各 个 元 模型 的 元 模型 ， 同 时 ，MOF 也 是 自 描述 
的 ，MOF 可 以 描述 MOF 元 模型 自身 。 在 MDA 框架 中 ，M3 层 只 有 MOF 这 一 个 模型 ， 它 是 MDA 
中 最 基础 和 核心 的 标准 ， 为 MDA 框架 中 的 所 有 模型 和 /或 元 模型 提供 了 统一 的 语义 基础 ，MOF 解 
决 了 M2 层 中 不 同 元 模型 之 间 的 交互 性 ， 使 得 基于 MOF 的 统一 的 模型 操作 成 为 可 能 。 





MDA 内 MDA 外 
i Java 
M3: 元 元 模型 EE 4 
| 
M2: 元 模型 层 ”| SPEM UL CWM 








M1: 模型 层 Model 


9.15 MDA 的 模型 和 标准 


其 中 重要 的 一 点 是 MOF 支持 自省 〈introspection) 机 制 ， 在 MOF 中 定义 了 基于 MOF 的 各 级 模 
型 和 元 模型 的 统一 的 反射 接口 ， 如 RefBaseObject、RefObject、RefAssociation、RefPackage 等 操作 。 
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实战 大 数据 
Reflective: :RefBaseObject () // 获取 所 有 的 MOF 对 象 
Reflective: :RefObject () // 获取 所 有 对 象 
Reflective: :RefAssociation() // 获取 所 有 Rssociation 对 象 
Reflective: :RefPackage() // 获取 所 有 Package 对 象 


通过 上 面 介绍 的 接口 ， 遵 循 MOF 的 程序 实现 不 需要 深入 了 解 一 个 对 象 接 口 ， 即 可 以 遍历 各 
层 的 对 象 结构 并 找到 需要 的 对 象 进行 相关 的 操作 ， 如 创建 、 更 新 、 访 问 和 调用 M1 层 对 象 实例 的 
操作 等 。 

在 实际 使 用 中 ， 需 要 使 用 编程 语言 来 实现 这 些 接口 并 定义 从 MOF 到 (MDA 之 外 的 ) 编程 语 
言 之 间 的 映射 ， 如 定义 Java 中 实现 RefObject0 接 口 的 规格 , 保证 一 个 Java 的 MOF 实现 可 以 被 其 
他 用 户 统一 地 使 用 。 如 图 9. 15 右边 部 分 所 示 ，OMG 定义 了 从 MOF 到 Java、XML 等 的 映射 。 其 
中 到 XML 的 映射 就 是 XMI (XML Metadata Interchange) 标准 ， 到 Java 的 映射 就 是 JMI (Java 
Metadata Interface); 正在 制定 中 或 即将 制定 的 还 有 到 WSDL、.NET 的 映射 等 。 目 前 ，XMI 已 经 
广泛 应 用 于 各 UML 建 模 工具 中 ， 用 于 存储 模型 并 在 不 同 工 具 之 间 导 入 导出 ; JMI 也 广泛 应 用 各 
种 基于 Java 的 MDA 工具 中 ， 如 AndroMDA 中 使 用 Sun 公司 的 JMI 来 实现 MDR。 

除了 图 9.15 中 出 现 的 MOF、 JMI 和 XMI 之 外 , MDA 中 还 有 两 个 重要 的 标准 , QVT 和 OCL。 


。 QVT ( Query/View/Transformation ) : 模型 转换 标准 ， 为 基于 MOF 的 元 模型 和 /或 模型 之 
间 的 转换 提供 标准 的 转换 规则 描述 语言 。 

e OCL (Object Constraint Language ): 对 象 约束 语言 ,用 于 配合 UML 和 其 他 M2 层 元 模型 ， 
精确 地 描述 模型 语义 。 


本 章 中 将 要 用 到 的 是 MDA 框架 下 的 模型 转换 语言 (ATL)，ATL 是 由 ATLAS 研究 组 开发 出 
来 的 一 种 符合 OMG 的 一 个 QVT 提案 的 模型 转换 语言 。ATL 属于 基于 规则 的 模型 转换 语言 ， 其 
中 使 用 了 OCL 作为 约束 描述 语言 。ATL 是 一 种 混合 语言 ， 既 有 描述 性 语言 的 特征 ， 又 含有 命令 
式 语言 的 内 容 。 作 为 一 种 基于 规则 的 语言 ， 描 述 性 是 其 最 主要 特征 ， 但 是 为 了 完成 某 些 复杂 的 转 
换 ， 命 令 式 的 内 容 也 被 加 进去 了 。 

首先 介绍 ATL 的 整体 结构 框架 ， 如 图 9. 16 所 示 为 ATL 的 模型 转换 的 层次 结构 。 
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图 9.16 ATL 转换 层次 结构 
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图 9.16 中 Ma 是 源 模型 ， 而 Mb 是 目标 模型 。Ma 符合 其 元 模型 MMa， 而 Mb 符合 其 元 模型 
MMb。 同 时 MMa 和 MMb 都 符合 唯一 的 元 元 模型 MMM。Mt 是 一 个 模型 转换 实例 ， 也 是 一 种 模 
型 ，Mt 符合 模型 转换 的 元 模型 MMt。MMt 同时 也 符合 唯一 的 元 元 模型 MMM 。 

在 ATL 中 Ecore 是 其 唯一 的 元 元 模型 ， 其 地 位 等 同 于 MOF。 而 MMa 和 MMb 则 是 由 Ecore 
创建 出 来 的 元 模型 。Ma 和 Mb 则 是 符合 这 些 元 模型 的 模型 实例 。MMt 已 经 被 ATL 定义 好 了 ， 
Mt 则 是 使 用 者 自己 要 定义 的 模型 转换 模型 ， 也 就 是 模型 转换 程序 或 者 被 称 为 转换 规则 。 





数据 统一 访问 和 灵活 转换 的 详细 设计 与 实现 


数据 统一 访问 和 灵活 转换 的 详细 设计 架构 如 图 9.17 所 示 。 







图 9.17 数据 统一 访问 和 灵活 转换 详细 架构 图 


数据 统一 访问 和 灵活 转换 的 设计 思路 是 对 数据 源 数据 依据 用 户 的 要 求 作 预 处 理 分 析 ， 在 预 处 
理 分 析 的 基础 上 通过 数据 访问 服务 (DAS ) 对 异 构 数据 源 实 现 统一 访问 ， 并 采用 基于 服务 数据 对 
象 (SDO) 的 技术 结合 MapReduce 完成 海量 数据 的 并 行 转换 应 用 处 理 。 


9.4.1 数据 分 析 及 预 处 理 


数据 分 析 及 预 处 理 主要 分 为 数据 分 析 、 数 据 审 核 与 数据 修正 三 部 分 。 数 据 预 处 理 的 主要 目的 
是 保证 数据 能 够 满足 大 量 数据 的 统一 处 理 规 则 。 数 据 分 析 与 预 处 理 流 程 如 图 9.18 所 示 。 
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图 9.18 ”数据 分 析 及 预 处 理 流程 

1. 数据 分 析 

数据 分 析 (Data Profiling) 是 对 数据 可 用 性 的 一 个 统一 检查 和 统计 分 析 过 程 。 在 关系 数据 库 
中 ， 数 据 库 会 对 每 张 表 做 分 析 ， 一 方面 是 为 了 让 优化 器 可 以 选择 合适 的 执行 计划 ， 另 一 方面 ， 对 
于 一 些 查询 可 以 直接 使 用 分 析 得 到 的 统计 信息 返回 结果 ， 比 如 COUNT (*)。Oracle 数据 仓库 构 
建 工 具 OWB 中 提供 的 数据 分 析 的 统计 信息 更 加 全 面 ， 主 要 有 记录 数 、 最 大 值 、 最 小 值 、 最 大 长 
度 、 最 小 长 度 、 唯 一 值 个 数 、NULL 值 个 数 、 平 均 数 和 中 位 数 等 ， 针 对 字段 的 唯一 值 ， 在 统计 分 
析 过 程 中 也 需要 统一 每 个 唯一 值 的 信息 ， 这 对 发 现 一 些 异 常数 据 是 非常 有 用 的 。 

上 述 统计 分 析 的 统计 信息 可 以 联系 统计 学 上 面 的 统计 描述 ， 统 计 学 上 会 使 用 一 些 统计 量 来 描 
述 一 些 数据 集 或 者 样本 集 的 特征 , 在 这 里 我 们 可 以 借助 于 类 似 OWB 这 样 的 ETL 工具 , 也 可 以 借 
助 统计 学 的 知识 来 分 析 ， 在 统计 学 中 有 一 个 非常 实用 的 图 表 工具 一 一 箱 形 图 (Box plot)， 也 叫 箱 
线 图 、 盒 状 图 。 可 以 尝试 用 箱 形 图 来 表现 数据 的 分 布 特征 ， 以 便 更 直观 地 显示 给 用 户 数据 的 质量 
分 布 。 一 般 的 箱 线 图 结构 如 图 9.19 所 示 。 
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高 群 点 
上 界 


DO 


上 四 分 位 
均值 
中 位 数 
下 四 分 位 


下 界 
图 9.19 箱 线 图 结构 


箱 线 图 有 很 多 种 表现 形式 ， 一 般 中 间 和 矩形 箱 的 上 下 两 边 分 别 为 数据 集 的 上 四 分 位 数 〈 占 75% 
比例 : Q3) 和 下 四 分 位 数 〈 占 25% 比 例 : Q1)， 中 间 的 横 线 代表 数据 集 的 中 位 数 〈 占 50% 比 例 : 
Q2)， 箱 线 图 中 用 “+” 来 表示 数据 集 的 均值 。 箱 形 的 上 下 分 别 延 伸 出 两 条 线 ， 这 两 条 线 的 末端 ， 
也 称 “ 触 须 ”， 一 般 是 距离 箱 形 1.5 个 IQR〈Q3-Q1， 即 箱 形 的 长 度 )， 所 以 上 端的 触须 应 该 是 
Q3+1.5IQR， 下 端的 触须 是 Q1-1.5IQR; 如 果 数 据 集 的 最 小 值 大 于 Q1-1.5IQR， 我 们 就 会 使 用 最 
小 值 蔡 换 Q1-1.5IQR 作为 下 方 延伸 线 末 端 ， 同 样 如 果 最 大 值 小 于 Q3+1.5IQR,， 用 最 大 值 作 为 上 方 
延伸 线 的 末端 ， 当 最 大 或 者 最 小 值 超 出 了 Q1-1.5IQR~Q3+1.5IQR 这 个 范围 时 , 我 们 将 这 些 超出 的 
数据 称 为 离 群 点 或 孤 点 ， 在 图 中 表示 出 来 就 是 图 中 在 上 方 触须 之 外 的 点 。 当 然 ， 在 一 定 的 情况 下 
也 可 以 使 用 基于 数据 集 的 标准 差 o, 选择 上 下 36 的 范围 , 也 可 以 使 用 置信 水 平 为 95% 的 置信 区 间 
来 确定 上 下 边界 的 末端 值 。 

箱 线 图 并 不 能 够 展现 数据 集 的 全 貌 ， 但 通过 对 数据 集 几 个 关键 统计 量 的 图 形 化 表现 ， 可 以 让 
我 们 看 清 数据 的 整体 分 布 和 离散 情况 。 下 面 给 出 了 关系 数据 库 中 数据 统计 信息 的 分 析 过 程 。 

数据 基本 存储 逻辑 结构 E_R 设计 如 图 9.20 所 示 。 





数据 源 1 

















数据 源 2 移 计 分 














数据 源 n 











图 920 数据 分 析 信 息 E_R 
依据 E_R 关系 图 设计 关系 数据 库 中 的 数据 分 析 信 息 表 结构 如 图 9.21 所 示 。 
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数据 分 析 


EE 


C- 可 变 长 度 (10) 
C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 


C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 
C- 周 定 长 度 (10) 
C- 固 定 长 度 (10) 
C- 固 定 长 度 (10) 








9.21 数据 分 析 信息 表 结 构 


这 样 将 数据 分 析 信 息 统一 访问 在 一 张 表 结构 中 ， 在 关系 数据 库 中 往往 能 达到 更 高 的 性 能 。 
ID 最 大 值 统计 分 析 如 下 : 


SELECT MAX(ID) FROM TABLE 


记录 数 统计 分 析 语 句 如 下 : 


SELECT COUNT (*) FROM TABLE 


其 他 分 析 统计 方式 也 类 似 。 

通过 数据 分 析 可 以 得 到 数据 的 详细 统计 信息 ， 接 下 来 将 对 如 何 利用 这 些 统计 信息 来 审核 数据 
的 质量 ， 发 现 数据 中 可 能 存在 的 异常 和 问题 ， 然 后 对 数据 进行 有 效 地 修正 ， 最 后 就 可 以 得 到 符合 
统一 访问 访问 等 处 理 的 “干净 ”数据 。 


2. 数据 审核 


基于 数据 分 析 中 对 数据 源 数 据 信 息 的 统计 分 析 信 息 ， 接 下 来 可 以 对 数据 进行 审核 ， 以 评估 数 
据 是 否 满足 后 期 数据 统一 处 理 的 规则 的 要 求 ， 其 中 数据 的 及 时 性 主要 跟 数据 的 同步 和 处 理 过 程 的 
效率 相关 ， 更 多 的 是 通过 监控 新 数据 来 保证 数据 的 及 时 性 ， 所 以 这 里 的 数据 审核 主要 指 的 是 评估 
数据 的 完整 性 、 一 致 性 和 准确 性 。 

(1) 完整 性 

从 Data Profiling 得 到 的 数据 统计 信息 里 面 看 看 哪些 可 以 用 来 审核 数据 的 完整 性 。 首 先是 记录 
的 完整 性 ， 一 般 使 用 统计 的 记录 数 和 唯一 值 个 数 对 比分 析 。 比 如 网 站 每 天 的 日 志 记录 数 是 相对 恒 
定 的 ,大 概 在 1000 万 上 下 波动 ,如果 某 天 的 日 志 记录 数 下 降 到 了 只 有 100 万 , 那 很 有 可 能 是 记录 
缺失 了 。 

完整 性 的 另 一 方面 是 记录 中 某 个 字段 的 数据 缺失 ， 可 以 使 用 统计 信息 中 的 空 值 (NULL) 的 
个 数 和 数据 记录 数 来 分 析 进 行 审核 。 如 果 某 个 字段 的 信息 理论 上 必然 存在 ， 这 些 字段 的 空 值 个 数 
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的 统计 应 该 是 零 ， 在 这 类 字段 上 可 以 使 用 非 空 (NOTNULL) 约束 保证 数据 的 完整 性 ， 对 于 某 些 
允许 空 的 字段 ， 空 值 的 占 比 基 本 和 恒定， 同样 可 以 使 用 统计 的 空 值 个 数 来 计算 空 值 占 比 ， 如 果 空 值 
的 占 比 明显 增 大 ， 很 可 能 是 字段 的 记录 出 现 信息 缺失 。 


(2) 一 致 性 

如 果 数 据 记 录 格 式 有 标准 的 编码 规则 ， 那 么 对 数据 记录 的 一 致 性 检验 比较 简单 ， 只 要 验证 所 
有 的 记录 是 否 满足 这 个 编码 规则 就 可 以 , 最 简单 的 就 是 使 用 字段 的 长 度 、 唯 一 值 个 数 这 些 统计 量 。 
如 果 字 段 必 须 保证 唯一 ， 那 么 字段 的 唯一 值 个 数 和 记录 数 必须 一 致 。 

一 致 性 中 逻辑 规则 的 验证 相对 比较 复杂 ， 很 多 时 候 指标 的 统计 逻辑 的 一 致 性 需要 底层 数据 质 
量 的 保证 ， 同 时 也 要 有 非常 规范 和 标准 的 统计 逻辑 的 定义 ， 所 有 指标 的 计算 规则 必须 保证 一 致 。 
经 常 遇 到 的 错误 就 是 汇总 数据 和 细 分 数据 加 起 来 的 结果 不 一 致 ， 这 种 情况 通常 是 数据 在 细 分 时 有 
些 无 法 明确 归 到 某 个 细 分 项 的 数据 给 排除 掉 。 审 核 这 类 数据 逻辑 的 一 致 性 ， 可 以 建立 一 些 “ 有 效 
性 规则 ” 如 A>=B，C=B/A， 那 么 C 的 值 必须 在 0~1 的 范围 内 。 当 数据 无 法 满足 这 些 规则 时 就 无 
法 通过 一 致 性 检验 。 


(3) 准确 性 

数据 的 准确 性 可 能 存在 于 个 别 记 录 ， 也 可 能 存在 于 整个 数据 集 。 如 果 整 个 数据 集 的 某 个 字段 
的 数据 存在 错误 , 这 种 错误 比较 容易 发 现 , 利用 数据 分 析 的 平均 数 和 中 位 数 也 可 以 发 现 这 类 问题 。 
当 数 据 集中 存在 个 别 的 异常 值 时 ， 可 以 通过 最 大 值 和 最 小 值 的 统计 量 去 审核 ， 或 者 使 用 箱 线 图 的 
方法 让 异常 记录 直观 易 懂 。 对 于 字符 乱码 的 问题 或 者 字符 被 截断 的 问题 ， 可 以 使 用 数据 分 布 来 发 
现 这 类 问题 ， 一 般 的 数据 记录 基本 符合 正 态 分 布 或 者 类 正 态 分 布 ， 那 些 所 占 比 例 异常 小 的 数据 项 
很 可 能 存在 问题 。 对 于 数值 范围 既定 的 数据 ， 也 可 以 进行 有 效 性 的 限制 ， 超 过 数据 有 效 的 值 域 定 
义 数 据 记 录 就 是 错误 的 。 

如 果 数 据 并 没有 显著 异常 ， 但 仍然 可 能 记录 的 值 是 错误 的 ， 只 是 这 些 值 与 正常 的 值 比较 接近 
而 已 ， 这 类 准确 性 检验 比较 困难 ， 一 般 只 能 与 其 他 来 源 或 者 统计 结果 进行 比 对 来 发 现 问题 ， 如 果 
使 用 多 种 数据 收集 系统 或 者 数据 分 析 工 具 ， 那 么 通过 不 同 数据 来 源 的 数据 对 比 可 以 发 现 一 些 数据 
记录 的 准确 性 问题 。 

通过 数据 审核 可 以 发 现 数据 中 存在 的 一 些 问题 ， 接 下 来 主要 针对 数据 审核 中 发 现 的 问题 对 数 
据 进 行 清洗 和 修正 。 

3. 数据 修正 

通过 数据 审核 过 程 发 现 数据 中 存在 的 问题 ， 这 些 问 题 一 般 可 以 采取 一 些 方法 进行 修正 ， 以 便 
进一步 提升 数据 的 整体 质量 ， 一 般 可 以 通过 以 下 几 种 方法 进行 修正 。 

(1) 填补 缺失 值 

对 于 记录 缺失 的 问题 ， 最 简单 的 办 法 是 数据 回 补 。 一 般 而 言 统计 指标 数据 缺失 可 以 从 原始 数 
据 中 重新 统计 获取 ， 而 原始 数据 缺失 可 以 从 抽取 的 数据 源 或 者 备份 数据 中 回 补 。 如 果 原 始 数据 完 
全 丢失 ， 基 本 上 就 无 法 修正 。 
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对 于 字段 值 的 缺失 ， 很 多 资料 中 都 会 介绍 使 用 一 些 统计 学 中 的 方法 进行 修补 ， 其 实 主要 是 对 
缺失 数据 值 的 预测 或 者 估计 ， 一 般 可 以 使 用 平均 数 、 众 数 、 前 后 数据 值 取 平 均等 方法 ， 或 者 使 用 
回归 分 析 的 方法 拟 合 指 标的 变化 趋势 后 进行 预测 。 这 些 方 法 在 缺失 数据 值 无 法 使 用 其 他 途径 找 回 
或 者 重新 统计 计算 ， 并 且 在 缺失 数据 值 有 变化 规律 可 循 的 前 提 下 都 是 可 取 的 ， 当 某 天 的 指标 值 丢 
失 时 可 以 通过 这 类 方法 根据 前 几 天 的 数据 来 预 估 该 天 的 数值 。 一 般 的 原则 是 ， 不 太 重要 的 字段 如 
果 缺 失 或 者 异常 的 记录 数据 所 占 比 例 小 于 1% 或 者 5%o， 可 以 直接 过 滤 掉 这 些 记录 ， 如果 所 占 比 例 
比较 高 ， 需 要 进一步 通过 排查 日 志 记录 看 是 否 存在 问题 。 

(2) 删除 重复 记录 

数据 集 里 面 某 些 字段 的 数据 值 必须 是 唯一 的 ， 这 些 需要 保证 唯一 的 规则 可 以 对 数据 库 设置 唯 
一 约束 ， 但 在 做 数据 处 理 时 ， 为 了 能 够 保证 数据 加 载 过 程 中 可 以 不 因为 违反 唯一 约束 而 中 断 ， 有 
时 数据 加 载 的 过 程 需要 较 长 的 时 间或 处 理 成 本 ， 数 据 分 析 需 要 有 容错 能 力 以 保证 整个 过 程 不 被 中 
断 ， 而 是 先 忽略 重复 记录 ， 待 整个 数据 分 析 过 程 完成 后 再 对 需要 保证 唯一 的 字段 进行 去 重 处 理 。 

这 些 重复 记录 可 以 对 数据 分 析 过 程 中 数据 统计 信息 的 唯一 值 个 数 和 记录 总 数 是 否 一 致 进行 比 
较 审核 ， 而 进行 修正 的 最 简单 办 法 就 是 重复 记录 仅 保留 一 条 ， 删 除 其 他 记录 。 这 需要 根据 现实 情 
况 ， 有 时 也 可 能 使 用 把 重复 记录 的 统计 量 相 加 的 方法 进行 去 重 。 

(3) 转化 不 一 致 记录 

数据 的 转化 是 数据 统一 访问 与 转换 数据 过 程 中 最 常见 的 处 理 ， 因 为 数据 统一 访问 与 转换 ， 需 
要 把 来 自 多 个 数据 源 的 数据 进行 统一 访问 和 转换 应 用 ， 而 不 同 数据 源 对 某 些 含义 相同 的 字段 的 编 
码 规则 会 存在 差异 ， 即 使 是 相同 的 数据 源 ， 也 可 能 存在 记录 的 不 一 致 ， 如 遇 到 新 老 版 本 的 日 志 打 
到 了 一 起 ， 就 会 涉及 数据 的 转化 ， 但 这 种 记录 的 不 一 致 性 会 增 大 数据 的 处 理 成 本 。 

在 数据 统一 访问 与 转换 处 理 时 可 能 会 遇 到 一 些 比较 复杂 的 规则 ， 这 时 最 关键 的 还 是 对 数据 源 
记录 方式 的 理解 ， 较 好 理解 数据 源 的 记录 方式 才能 最 大 程度 地 保证 处 理 数据 的 一 致 。 最 好 的 处 理 
方式 就 是 能 事先 约定 一 套 统 一 的 数据 记录 和 编码 的 方式 ,以 降低 后 续 的 协调 沟通 和 转化 处 理 成 本 。 


(4) 处 理 异常 数据 

异常 数据 大 部 分 情况 是 很 难 修正 的 ， 如 字符 编码 等 问题 引起 的 乱码 、 字 符 被 截断 、 异 常 的 数 
值 等 ， 这 些 异 常数 据 如 果 没有 规律 可 循 几乎 不 可 能 被 还 原 ， 只 能 将 其 直接 过 滤 。 

有 些 数据 异常 则 可 以 被 还 原 ， 如 原 字符 中 挨 杂 了 一 些 其 他 的 无 用 字符 ， 可 以 使 用 取 子 串 的 方 
法 ,或 用 trim 函数 去 掉 字 符 串 前 后 的 空格 等 ; 字符 被 截断 的 情况 下 如 果 可 以 使 用 截断 后 字符 结合 
字典 推导 出 原 完整 字符 串 ， 那 么 也 可 以 被 还 原 。 数 值 记录 中 存在 异常 大 或 者 异常 小 的 值 时 ， 可 以 
分 析 是 否 数 值 单位 差异 引起 的 ， 这 类 数值 的 异常 可 以 通过 数据 转化 进行 处 理 ， 包 括 数值 单位 的 差 
异 都 应 该 属于 数据 的 不 一 致 性 ， 或 者 是 某 些 数值 被 错误 地 放大 或 缩小 。 














9.4.2 ”基于 DAS 的 数据 源 统一 访问 
异 构 数据 源 有 各 种 形式 ， 比 如 关系 型 数据 库 、 文 本 、XML、Excel 等 ， 而 关系 型 数据 库 又 有 
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MySQL、Oracle、SQL Server、DB2 等 。 数 据 源 访问 管理 模块 主要 是 屏蔽 异 构 数据 源 的 访问 差异 
性 ， 通 过 统一 的 接口 访问 。 
数据 访问 结构 如 图 9.22 所 示 。 







数据 源 注册 


管理 


全 一 | 元 数据 转换 


数据 转换 

















9.22 数据 源 访问 结构 


数据 源 访问 模块 主要 由 数据 源 注册 管理 、 数 据 源 元 数据 信息 抽取 和 元 数据 转换 以 及 数据 源 数 
据 读 取 管理 和 数据 转换 组 成 。 

1. 数据 源 注 册 管 理 

数据 源 注册 管理 信息 使 用 DataSource 实体 进行 存储 。 其 中 sequenceNo、srvTitle、srvDesc、 
dbSystem、dbmsVersion 是 数据 源 的 相关 基础 信息 的 描述 ， 而 dbDialect、dbDriver、conHostIP、 
dbAccessPort、dbName、dbUser、DBPin、dbSchema、dbProvider 是 数据 源 访问 权限 相关 的 信息 。 


dbDriver、conHostIP、dbAccessPort、dbUser、dbPin 分 别 代表 数据 源 的 驱动 、 物 理 地 址 、 端 口 、 
用 户 名 以 及 用 户口 令 信息 , 是 系统 访问 数据 源 的 必 备 基本 信息 。 DataSource 类 结构 如 图 9.23 所 示 。 


DataSource 


-SequenceNo : int 
-srvTitle : String 
-srvDesc : String 
-dbSystem : String 
-dbmsVersion : String 
-dbDialect : String 
-dbDriver : String 
-dbAccessPort : String 
-dbName : String 
-dbUser : String 
-DBPin : String 
-dbSchema : String 
-dbProvider : String 








9.23 ”数据 源 注 册 DataSource 类 


其 中 sequenceNo 作为 标识 数据 源 的 ID， 做 了 唯一 性 约束 。conHostIP 必须 是 PP 地 址 格式 的 字 
符 串 ,而 dbAccessPort 的 字符 串 必须 是 0-65535 之 间 的 数字 , 因此 进行 了 相关 约束 性 定义 .DataSource 
实体 为 系统 统一 的 数据 集 连 接 接 口 存储 参数 ， 是 数据 集 连 接 实 现 “ 即 插 即 用 ”的 必 备 信息 。 
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Setup( : String ) : void 
+SetUp() : void 
+insertData() : void 





图 9.24 数据 源 管 理 类 关系 


图 9.24 中 DatabaseSetup 类 为 数据 源 配 置 管理 抽象 类 ， 其 各 个 子 类 分 别 实现 了 对 具体 数据 源 
的 配置 访问 管理 。DerbySetup 子 管理 类 实现 了 对 Derby 数据 源 的 访问 管理 ，MySQL Setup 子 管理 
类 实现 对 MySQL 数据 库 的 操作 管理 。 

2. DAS 访问 配置 管理 

基于 DAS 的 数据 访问 服务 对 Derby 数据 源 的 访问 操作 管理 配置 文件 的 配置 过 程 实例 如 下 : 
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数据 源 配置 管理 CustomerDatabaseInitializer 的 实现 如 下 : 





实战 大 数据 





数据 源 配置 初始 化 实现 如 下 : 





比如 ， 对 于 文本 类 型 的 数据 源 ， 需 要 获取 文本 路 径 、 抽 取 起 始 行 、 字 段 分 隔 符 ， 并 需要 定义 源 表 
名 以 及 各 字段 的 元 数据 信息 (名 称 、 类 型 、 长 度 、 精 度 ); 对 于 关系 型 数据 库 类 型 的 数据 源 ， 需 要 
获取 数据 库 类 型 、 数 据 库 所 在 的 他 地址、 数据库 名 、 账 号 、 密 码 以 及 各 字段 的 元 数据 信息 。 这 些 
信息 通过 元 数据 管理 模块 来 保存 在 元 数据 资料 库 中 。 

数据 源 基 本 信息 结构 定义 及 元 数据 抽取 实现 如 下 。 

属性 元 数据 信息 结构 定义 : 
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表 内 容 元 数据 信息 结构 定义 : 


4. 元 数据 转换 模块 

元 数据 的 典型 表现 为 对 对 象 的 描述 ， 即 对 数据 库 、 表 、 列 、 列 属性 类型、 格式 、 约 束 等 ) 
以 及 主键 / 外 键 关联 等 的 描述 ， 特 别 是 现行 应 用 的 异 构 性 与 分 布 性 越 来 越 普遍 的 情况 下 ， 统 一 的 
元 数据 就 愈 发 重要 了 。 在 一 个 数据 源 里 , 数据 类 型 是 非常 多 的 , 仅 Oracle 的 字符 类 型 就 有 CHAR、 





VARCHAR2、NCHAR、NVARCHAR2 等 ， 而 数据 源 的 多 样 性 使 数据 类 型 的 多 样 性 更 加 明显 。 在 
异 构 数据 转换 过 程 中 ， 同 为 数值 型 ， 可 能 因为 精度 不 匹配 而 报错 ， 同 为 字符 型 ， 可 能 因为 来 自 不 
同 的 数据 源 而 无 法 联合 操作 ， 类 似 的 问题 非常 多 。 针 对 这 些 问 题 ， 采取 了 如 下 策略 : 收集 分 析 各 
数据 源 所 支持 数据 类 型 ， 建 立 一 个 数据 类 型 库 ， 而 对 于 文本 文件 的 数据 一 律 看 作 字 符 型 数据 。 

数据 处 理 中 心 所 支持 的 三 种 标准 数据 类 型 有 : string、numeric 和 date。 

@ string 代表 数据 类 型 源 中 的 各 种 字符 类 型 。 

enumeric 代表 数据 类 型 源 中 的 各 种 数值 类 型 。 

e@ date 代表 数据 类 型 源 中 的 各 种 时 间 和 日 期 类 型 。 


元 数据 映射 规则 表 如 表 9.9 所 示 。 


表 9.9 元 数据 映射 规则 
所 映射 类 型 





VARCHAR2 
String 
NCHAR 
NVARCHAR2 
Na can 加) 
Date (char[n]) 


5. 数据 源 数据 读 取 

该 模块 完成 实际 数据 的 读 取 功能 ， 包 括 将 数据 源 的 数据 读 取 到 数据 处 理 中 心 。 各 数据 源 的 数 
据 在 存储 结构 上 存在 较 大 的 差异 性 ， 在 数据 源 数据 读 取 过 程 中 涉及 海量 的 数据 ， 动 辑 百 万 行 ， 对 
数据 处 理 的 性 能 提出 了 巨大 挑战 ， 尤 其 是 从 数据 源 端 读 取 数据 阶段 ， 大 量 的 IO 操作 可 能 成 为 数 
据 读 写 过 程 中 的 性 能 颈 瓶 ， 可 以 通过 索引 、 使 用 Bulk Loading 和 External Loading、 建 立 连 接 池 和 
缓冲 池 等 方式 来 提高 效率 ， 利 用 各 个 数据 库 的 一 些 独 特 的 优化 技巧 ， 来 提高 数据 的 读 取 速 度 。 通 
过 DAS 将 数据 源 数据 加 载 到 数据 对 象 中 后 对 数据 对 象 的 处 理 都 可 以 采用 标准 的 SDO 方式 ， 因 此 
这 里 采用 基于 SDO 的 技术 统一 来 处 理 数据 ， 以 更 大 程度 地 提高 数据 处 理性 能 。 

数据 源 数据 获取 数据 流 图 如 图 9.25 所 示 。 

一 ~、 异 构 数据 ”一 构造 数据 “一 ~ 


ee 小 数据 导入 | 数据 访问 服务 | 对象 SD0 数 据 统一 ] 
数据 源 | 一 二 (DAS) | 处 理 


数据 类 型 
HAR 
Int 














一 


图 925 数据 源 数据 获取 数据 流 图 
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图 9.25 中 描述 了 数据 源 数据 访问 过 程 的 数据 流 导向 。 
基于 SDO DAS 的 数据 统一 访问 类 关系 如 图 9.26 所 示 。 








[aa sd 
图 9.26 数据 统一 访问 类 关系 
926 中 详细 描述 了 各 相关 类 之 间 的 关系 。 


接 下 来 通过 SDO DAS 访问 XML 数据 源 中 的 数据 并 实现 数据 的 处 理 等 操作 。SDO 数据 访问 
前 需要 用 户 注册 数据 类 型 ， 数 据 类 型 的 注册 有 通过 XSD 文件 格式 注册 或 用 户 在 程序 中 动态 注册 
两 种 方式 。 在 下 面 的 介绍 中 将 以 XSD 文件 格式 注册 并 在 此 基础 上 实现 XML 数据 的 统一 访问 。 

用 XSD 文件 定义 数据 对 象 的 类 型 描述 : 
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通过 使 用 XML 数据 访问 服务 类 XSDHelper 加 载 上 面 定义 的 数据 源 数据 类 型 文件 (XSD 文 
件 )。 


以 下 面 的 XML 数据 作为 数据 源 : 


通过 使 用 XML 数据 访问 服务 类 XMLHelper 从 XML 数据 文件 中 读 取 数据 ， 并 通过 
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getRootObject0 方 法 返回 数据 对 象 Data Object)。 
company= XMLHelper.INSTANCE .load (ClassLoader.getSystemResourceAsStream(PO XML 
RESOURCE) ) .getRootObject (); 
接着 创建 数据 图 (Data Graph) 并 将 company 数据 对 象 设 置 到 数据 图 中 。 SDOUtil 是 Tuscany 
中 最 重要 的 SDO 工具 类 之 一 ， 主 要 用 来 创建 数据 对 象 、 数 据 图 等 重要 的 操作 。 


DataGraph dataGraph = SDOUtil .createDataGraph (); 
SDOUtil .setRootObject (dataGraph, company); 





从 数据 图 中 获取 变更 摘要 ， 并 开启 对 数据 图 进行 变更 的 记录 ， 比 如 修改 数据 对 象 company 中 
Departments 属性 值 的 过 程 如 下 : 


ChangeSummary changeSummary = dataGraph.getChangeSummary (); 
changeSummary .beginLogging(); 

company.setString (company .getProperty ("Departments”),”Depart”); 
changeSummary.endLogging(); 


可 以 使 用 变更 摘要 的 isModifed 方法 返回 数据 图 是 否 发 生 更 改 ， 如 果 发 生 了 更 改 可 以 使 用 
getOldValue 方法 获取 更 改 前 的 值 ， 也 可 以 使 用 undoChanges 方法 回 滚 数 据 图 。 其 操作 方式 简单 统 
-， 降 低 了 对 复杂 数据 的 统一 处 理 难度 。 


9.4.3 ”映射 模式 表示 与 数据 存储 管理 模块 


1. 映射 模式 管理 

映射 模式 主要 用 来 管理 异 构 数据 源 间 元 数据 的 映射 建立 数据 源 类 型 到 标准 类 型 映射 关系 表 ， 
保存 在 元 数据 库 中 ， 当 把 数据 源 的 数据 读 取 到 数据 处 理 中 心 时 ， 数 据 类 型 统一 转化 为 标准 数据 类 
型 ， 以 此 屏蔽 数据 源 的 差异 ， 以 及 往 目标 系统 存储 数据 时 ， 参 照 类 型 映射 关系 表 完 成 字段 类 型 的 
识别 、 匹 配 。 

源 数据 项 的 表示 定位 到 具体 的 数据 源 数据 后 ， 若 源 数 据 项 不 唯一 ， 那 么 源 数据 并 不 能 够 直接 
映射 到 目标 数据 ， 因 为 源 数据 间 存 在 关系 ， 如 相 加 的 关系 、 列 变 行 、 行 变 列 等 ， 需 要 表示 这 种 关 
系 。 

将 数据 源 与 数据 源 间 存在 的 关系 归 为 以 下 几 类 。 

(1) 二 元 运算 关系 

二 元 运算 关系 是 针对 两 个 数据 项 而 言 的 ， 即 数据 项 有 且 仅 有 两 项 。 两 个 数据 项 之 间 的 关系 ， 
最 常见 的 是 四 则 运算 关系 ， 即 加 、 减 、 乘 、 除 。 除 此 之 外 ， 还 有 求 百分比 等 。 


(2) 多 元 运算 关系 
多 元 运算 关系 指 的 是 数据 项 在 两 个 或 者 两 个 以 上 的 数据 关系 。 常 见 的 有 选择 多 个 数据 的 最 大 
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值 、 


最 小 值 、 平 均值 、 偏 差 等 。 
多 元 运算 关系 与 二 元 运算 关系 最 大 的 不 同 是 : 多 元 运算 关系 中 数据 项 的 数目 是 不 确定 的 。 数 


据 项 数目 改变 并 不 改变 数据 的 处 理 方式 。 


(3) 行列 运算 关系 
行列 运算 关系 是 属于 多 元 运算 关系 的 特殊 情况 ， 由 于 它 本 身 存在 特定 的 规律 ， 在 此 专门 归 为 


一 类 。 常 见 的 有 行 变 列 、 列 变 行 、 多 列 相 加 等 。 


行列 运算 可 以 分 为 两 类 : 

e 单个 行列 运算 关系 

最 常见 的 情况 是 行 变 列 、 列 变 行 。 

e 多 个 行列 运算 

常见 的 有 行 相 加 、 列 相 加 等 。 

(4) 自 定义 运算 关系 

自 定义 运算 关系 是 针对 用 户 具体 的 业务 需求 而 言 的 。 这 种 运算 关系 非常 广泛 , 随 着 用 户 不 同 ， 


定义 的 运算 关系 也 不 同 。 
数据 源 与 数据 源 之 间 的 关系 表示 规则 的 BNF 范式 定义 如 下 所 示 : 
< 异 构 数 据 源 间 的 关系 >: : = 
< 源 数 据 项 >< 二 元 运算 符 >< 源 数据 项 > 


1< 多 元 运算 符 >、”(”< 源 数据 项 >{ ，< 源 数据 项 >}“) “ 
1< 行 列 运算 符 >* 〈” < 源 数据 项 列 或 行 >{，< 源 数据 项 的 列 或 行 >}") “ 
1< 自 定义 运算 符 >、” (“< 源 数据 项 >{ ，< 源 数据 项 >}*)“ 


定义 了 目标 数据 项 、 源 数据 项 、 源 数据 项 间 关系 的 表示 规则 后 ， 就 能 够 以 表达 式 的 形式 来 表 


示 源 、 目 标 数 据 的 映射 关系 。 


数据 映射 关系 规则 BNF 表示 如 下 所 示 : 


< 源 、 目 标 数据 映射 关系 >: : = 


< 目标 数据 项 > 
“=“< 单 个 异 构 数据 项 > 
1< 多 个 异 构 数据 项 间 的 关系 > 


源 数 据 到 目标 数据 的 映射 关系 表达 式 是 按照 一 定 步骤 确立 的 ， 具 体 确 立 的 步骤 如 下 : 


人 1 根据 目标 表 的 设计 ， 表 示 目 标 表 的 各 数据 项 。 在 表示 数据 项 时 ， 可 能 会 表示 各 单个 数据 


项 ， 也 可 能 表示 数据 行 或 列 。 


G02 目标 数据 项 的 表示 ， 定 义 与 之 相关 的 源 数据 表示 。 
人 03 选择 异 构 数据 间 的 关系 。 若 存在 多 个 异 构 数据 ， 则 需要 确立 多 个 数据 之 间 的 关系 。 
人 《04 定义 并 存储 源 数据 到 目标 数据 的 映射 表达 式 。 
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5 

2. 基于 HBase 的 数据 存储 

前 面 讲述 了 元 数据 的 重要 性 并 描述 了 元 数据 的 抽取 转换 过 程 等 。 接 下 来 主要 讲述 基于 HBase 
的 数据 转换 规则 等 数据 以 及 其 他 一 些 中 介 数 据 存储 。 在 数据 转换 执行 时 ， 通 过 读 取 映射 关系 元 数 
据 而 得 到 数据 转换 的 脚本 或 存储 过 程 。 它 是 数据 应 用 和 数据 转换 之 间 的 重要 纽带 。 根 据 数 据 存储 
需求 ， 对 数据 库 的 设计 方面 需要 能 够 满足 元 数据 的 存储 以 及 映射 模式 的 快速 查找 等 特性 。 在 确定 
数据 库 的 总 体 设计 思路 后 ， 进 一 步 完 成 对 系统 中 数据 库 表 的 设计 。 

下 面 给 出 基于 HBase 的 数据 库存 储 结构 设计 。 

数据 源 基 本 元 信息 表 的 基本 结构 设计 如 表 9. 10 所 示 。 





表 9.10 ”数据 源 基本 元 信息 表 






数据 源 唯一 序列 号 人 D 
(或 数据 源 IP: 端口 号 ) 
DBMetaData_Info 


















列 族 Column family: 














DBMetaData_Info: 


数据 源 详细 元 信息 结构 存储 表 设计 如 表 9.11 所 示 。 
表 9.11 数据 源 详细 元 信息 结构 存储 表 


Tablemfo 


列 


























行 关键 字 数据 源 唯一 序列 号 人 DD 
Row Key (或 数据 源 全: 端口 号 ，: 表 名 ) 
列 族 Column family: TableMetaData_Info 
TableMetaData Info: : TabName 
TableMetaData Info: : AttrName 
TableMetaData Info: : AttrType 
TableMetaData Info: : AttrMaxLength 
TableMetaData Info: : PK 
TableMetaData_ Info: : FK 
TableMetaData Info: : Union 
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数据 源 异 构 数据 映射 关系 存储 表 结构 设计 如 表 9.12 所 示 。 


表 9.12 数据 源 异 构 数据 映射 关系 存储 表 























表 名 DBMapRel 
行 关键 字 数据 源 唯 一 序列 号 ID 
RowKey (或 数据 源 IP: 端口 号 : : RELID) 
列 族 Column family: DBMap_ Info 
| DBMap Ifo: : SRC 
列 | DBMap_Info: : DEST 
| DBMap_Info: : MapFunction 





用 户 定 义 好 映射 关系 表达 式 ， 数 据 处 理 中 心 将 表达 式 存储 在 DBMapRel 表 中 的 MapFunction 
列 下 在 DBMapRel 表 中 ,这些 记 录 可 能 是 目标 数据 行 或 列 的 映射 ， 也 可 能 是 目标 数据 项 的 映射 。 
在 基于 HBase 的 数据 库 设 计 中 通过 过 滤器 可 以 很 快 获得 单个 所 需 的 数据 映射 关系 表达 式 或 元 数据 
信息 等 ， 同 时 HBase 数据 库 也 支持 自 定义 Filter 来 扩展 数据 库 默 认 的 过 滤器 ， 进 而 可 以 满足 用 户 
自 定义 的 查询 规则 ， 以 实现 更 具体 的 或 更 抽象 的 查询 方式 。 

HBase 数据 库 管 理 类 图 如 图 9.27 所 示 。 





HbaseCreate 







HbaseDelete 









HbaseConf 
-hbaseConfig : HBaseConfiguration 








HbaseTablelnfo 





HbaseReader 


图 927 HBase 数据 库 管 理 类 图 
HBase 数据 存储 管理 相关 类 实现 如 下 。 


//HBase 配置 管理 类 
class HBaseConf { 


Private static HBaseConfiguration HBaseConfig=null; 
static Configuration conf = null; 
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HBase 数据 查询 管理 的 实现 如 下 。 








实战 大 数据 


9.4.4 基于 MapReduce 的 数据 转换 管理 模块 
基于 MapReduce 的 数据 转换 管理 结构 设计 如 图 9.28 所 示 。 
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计算 机 集群 
DFS Block 1 DFS Block 1 | 
Map 
DFS Block 1 HBase 
Data Data Data DFS Block 2 
Data Data Data Reduce 
Data Data Data DFS BlockL Map 元 数据 1 元 数据 2 
Data Data Data 临时 数据 1 临时 数据 2| 
Data Data Data DFS Block2 映射 关系 1 映射 关系 2 
Data Data Data 
Data Data Data Map 
DFS Block 3 
DFS Block 3 
DFS Block 3 














9.28 MapReduce 数据 转换 管理 结构 


首先 介绍 基于 模型 转换 语言 ATL 的 数据 转换 过 程 。 在 ATL 模型 转换 的 层次 结构 中 需要 4 部 
分 : 元 源 模型 (MMa)、 元 目标 模型 (MMb)、 源 模型 (Ma) 以 及 模型 转换 模型 (Mt， 也 是 模型 
转换 的 核心 规则 定义 )。Ma 符合 其 元 模型 MMa， 而 Mb 符合 其 元 模型 MMb。 同时 MMa 和 MMb 
都 符合 唯一 的 元 元 模型 MMM。Mt 是 一 个 模型 转换 实例 ， 符 合 模型 转换 的 元 模型 MMt。MMt 符 
合 唯一 的 元 元 模型 MMM。MMt 通过 ATL 定义 ，Mt 需要 用 户 依据 具体 需求 定义 实现 转换 规则 。 
基于 MapReduce 的 ATL 数据 转换 内 部 结构 如 图 9.29 所 示 。 















































MAP Data 
Ma le ATL 
» 
4 | REDUCE 
Mb Mt 
Data0 
| 
WP Deter Datal 
Ma le ATL 
| 
Mb Mt 


























图 9.29 数据 转换 内 部 结构 


图 9.29 中 Map 部 分 实现 海量 数据 的 分 布 处 理 。 数 据 转换 过 程 中 在 Map 阶段 加 载 Ma、Mb、 
Mt 和 数据 并 实现 数据 的 转换 ， 转 换 结束 后 通过 Reduce 过 程 实现 目标 数据 的 合并 。 

下 面 以 简单 的 代码 来 描述 一 个 数据 转换 实例 的 部 分 实现 。 

Map 阶段 数据 加 载 与 转换 伪 代 码 实现 如 下 : 


Map () 
下 
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元 源 模型 Ma 以 及 元 目标 模型 Mb 的 描述 如 下 面 的 代码 段 所 示 : 


元 目标 模型 Mb 的 简单 描述 如 下 面 的 代码 所 示 : 


将 上 述 两 个 元 模型 经 过 转换 生成 基于 XMI 格式 Ecore 模型 的 元 源 模型 Ma.ecore 和 元 目标 模 
型 Mb.ecore。 
待 转换 源 模型 数据 的 实现 如 下 : 
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数据 转换 规则 Mt 伪 码 描述 如 下 : 


在 上 述 基于 规则 的 代码 中 简单 的 定义 了 两 个 模型 之 间 的 转换 规则 映射 。 接 下 来 讲述 在 
MapReduce 计算 模型 中 实现 上 述 数据 转换 的 设计 思想 。 


通常 情况 下 ，MapReduce 程序 的 编写 都 可 以 简单 地 依赖 于 一 个 模板 及 其 变种 。 使 用 这 个 模板 
编写 MapReduce 程序 ， 主 要 需要 实现 两 个 函数 : 继承 自 Mapper 的 map 函数 以 及 继承 自 Reducer 
的 reduce 函数 。 一 般 遵循 以 下 格式 : 


对 于 海量 数据 的 转换 来 说 ， 可 以 将 待 处 理 的 数据 按照 数据 源 来 源 (IP 地 址 和 端口 号 ) 划分， 


377 





实战 大 数据 


并 且 都 可 以 完全 并 行 地 进行 处 理 。 


基于 MapReduce 的 数据 转换 类 关系 如 图 9.30 所 示 . 















| 





图 9.30 MapReduce 数据 转换 类 关系 


e DataMapper 用户 Mapper 类 。 该 类 继承 Mapper 类 ， 并 重 写 Mapper 类 中 的 map 函数 ， 主 
要 实现 数据 的 map 操作 。Map 的 输入 主要 包含 元 源 模 型 、 元 目标 模型 、 数 据 源 数据 以 及 
数据 转换 规则 , 对 输入 的 value 值 按 数 据 源 数据 处 理 ， 并 将 数据 按照 转换 规则 转换 等 信息 。 

@ DataReducer 用 户 Reducer 类 。 该 类 继承 了 Reducer 类 ， 并 重 写 Reducer 类 中 的 reduce 函 
数 ， 实 现 对 Map 计算 的 数据 结果 按 数据 源 来 源 合并 进而 提供 给 用 户 应 用 或 存储 在 目标 数 


据 库 中 (如 HBase ) 。 


DataMapper 和 DataReducer 是 在 MapReduce 计算 模型 实现 数据 转换 中 最 重要 的 两 个 类 分 别 


实现 了 MapReduce 编程 模型 中 的 map 操作 


现 基 于 MapReduce 的 高 效 计算 。 


本 章 小 结 


和 reduce 操作 , 用 户 可 以 通过 Hadoop 提供 的 接口 来 实 


本 章 主要 讲述 了 基于 服务 数据 对 象 的 异 构 数据 统一 访问 访问 与 灵活 转换 。 在 介绍 了 服务 数据 


对 象 及 数据 统一 访问 转换 的 应 用 背景 后 , 由 





浅 入 深 地 详细 讲解 了 数据 的 统一 访问 与 转换 应 用 背景 ， 


接 下 来 首先 结合 应 用 需求 对 数据 统一 访问 与 转换 进行 了 总 体 的 分 析 和 设计 ， 然 后 介绍 了 数据 统一 


访问 与 数据 转换 过 程 中 涉及 的 关键 技术 


， 最 后 结合 数据 访问 服务 、 服 务 数据 对 象 技术 以 及 


MapReduce 计算 模型 和 HBase 存 储 技术 对 异 构 数据 的 统一 访问 访问 和 数据 的 转换 各 阶段 过 程 做 出 


详细 的 分 析 和 设计 。 
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第 三 篇 





大 数据 应 用 篇 





第 10 章 
基于 微 博 的 股票 市 场 预 测 系 统 


本 章 主要 介绍 了 一 种 基于 微 博 的 股票 市 场 预测 系统 ， 并 对 该 系统 的 应 用 背景 和 相关 技术 做 
了 相应 的 介绍 ， 分 析 了 系统 的 需求 分 析 与 总 体 设计 思路 ， 最 后 给 出 了 详细 的 设计 与 实现 方案 。 本 
系统 主要 是 以 Twitter 微 博 为 例 ， 通 过 获取 海量 微 博 数据 ， 构 建 股票 兴趣 用 户 网 络 ， 并 分 析 用 户 的 
情感 态度 与 用 户 之 间 的 影响 关系 ， 预 测 股票 看 涨 和 看 跌 情 感 在 整个 社交 网 络 中 的 传播 趋势 ， 进 而 
预测 股票 价格 在 未 来 某 时 间 段 内 的 涨 跌 趋势 。 


应 用 背景 介绍 


社交 网 络 即 社交 网 络 服务 ， 它 源 自 于 英文 SNS (Social Network Service) 的 翻译 ， 中 文 直译 
为 社会 性 网 络 服务 或 者 社会 化 网 络 服务 ， 意 译 为 社交 网 络 服务 。 它 源 自 网 络 社交 ， 通 过 网 络 这 个 
载体 把 人 们 连接 起 来 ， 从 而 形成 了 具有 某 一 特点 的 团体 。Web 2.0 技术 的 兴起 将 人 与 人 的 交往 全 
面 带 入 了 一 个 在 线 社交 的 时 代 。 微 博 (Micro-Blog)、 社 会 书签 〈Socialbookmark)、 博 客 (Blog)、 
论坛 (Forum)、 维 基 (Wiki)、 播 客 (Podcast)、 协 同 内 容 标注 (Collaborative tagging) 等 各 类 在 
线 社交 类 应 用 迅速 增长 ， 用 户 利用 这 些 社会 网 络 应 用 完成 比 传统 方式 更 直接 的 交互 活动 : 社会 书 
签 中 的 标注 、 和 群体 和 推荐 为 不 同 用 户 间 的 知识 共享 提供 更 直接 的 支持 ， 论 坛 站 点 为 话题 讨论 提供 
了 更 有 效 的 信息 发 布 、 浏 览 、 分 类 ; 博客 和 微 博 为 用 户 提供 了 简便 的 信息 发 布 平台 ; 维基 网 站 将 
用 户 协同 编辑 和 信息 发 布 融 为 一 体 ; 博客 和 协同 内 容 标 注 网 站 则 将 音频 、 图 像 、 视 频 等 多 媒体 内 
容 进 行 发 布 并 提供 知识 共享 和 信息 传播 功能 。 近 年 来 ， 以 Twitter、Facebook、Linkedin、 开 心 网 、 
人 人 网 、 新 浪 微 博 等 网 站 为 代表 的 新 一 代 互 联网 迅速 崛起 。 这 些 社交 应 用 都 有 一 些 共同 的 特点 ， 
例如 用 户 贡献 数据 、 利 用 群体 智慧 、 充 分 的 在 线 交 互 以 及 丰富 的 用 户 体验 等 。 

Twitter 作为 一 种 特殊 的 在 线 社交 网 络 ,引领 了 微 博 潮流 , 它 凭 借 平台 的 开放 性 、 终 端 扩 展 性 、 
内 容 简洁 性 和 低 门 槛 等 特性 ， 成 为 网 民 获 取 新 闻 时 事 、 人 际 交往 、 自 我 表达 、 社 会 分 享 以 及 社会 
参与 的 重要 媒介 。 微 博 正在 发 展 成 为 重要 的 新 闻 源 ， 使 新 闻 媒 体 的 传播 形态 发 生变 化 。Twitter 等 
在 线 社 交 网 络 与 传统 的 Web 网 络 在 信息 传播 方式 上 存在 着 根本 的 不 同 : 传统 的 Web 网 络 是 以 信 
息 内 容 为 主体 进行 传播 ; 在 线 社交 网 络 是 以 人 为 中 心 ， 依 靠 人 与 人 之 间 的 好 友 关 系 进行 信息 的 传 
播 。 微 博 打破 了 传统 的 传播 方法 ， 它 利用 人 与 人 的 关系 改变 人 与 信息 的 关系 ， 反 过 来 又 用 人 与 信 
息 的 关系 影响 人 与 人 的 关系 。 如 何 去 描 述 在 线 社 交 网 络 中 的 信息 传播 行为 ， 揭 示 它 的 特性 ， 建 立 
信息 传播 模型 ， 具 有 重要 的 理论 和 应 用 价值 。 
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这 种 对 于 自己 想法 的 主动 发 布 与 分 享 ， 使 得 我 们 又 有 了 一 个 平台 ， 探 究 用 户 的 想法 ， 并 根据 
其 想法 预测 其 进一步 的 行动 。 已 经 有 学 者 开始 围绕 Twitter 微 博 平台 进行 一 些 预 测 方面 的 研究 。 他 
们 认为 ， 通 过 对 Twitter 上 谈 及 某 特定 事件 的 微 博 的 内 容 、 发 送 数目 、 发 送 时 间 和 频率 等 信息 的 研 
究 ， 能 够 预测 一 些 特定 事件 宏观 上 的 走向 ， 目 前 这 类 研究 涵盖 突 发 事件 处 理 、 电 影 票 房 统计 等 多 
方面 的 信息 。 近 年 来 我 国 网 络 大 事 层出不穷 ,网络 与 论 一 直 处 于 井喷 状态 ， 在 这 一 背景 下 ， 如 何 
尽早 地 预测 社会 网 络 上 话题 的 走向 和 趋势 对 于 国家 政治 稳定 具有 重要 的 现实 意义 。 在 商业 推广 领 
域 ， 充 分 利用 社会 网 络 的 小 世界 特性 ， 在 有 限 节点 上 进行 合理 的 广告 投放 ， 推 动 内 容 演化 ， 往 往 
可 以 在 满足 商业 需求 的 前 提 下 ,最 大 限度 地 减少 商业 成 本 ， 从 而 达到 良好 的 产品 推广 效果 ,因此 ， 
近年 来 社会 网 络 上 的 广告 推广 也 受到 了 广泛 的 关注 。 研 究 信息 在 社交 网 络 中 的 传播 ， 并 对 趋势 分 
析 做 出 合理 预测 , 不 但 对 国家 政治 稳定 具有 重要 的 现实 意义 , 而 且 在 商业 应 用 上 也 有 良好 的 前 景 。 

例如 ，2011 年 艇 动 一 时 的 “ 郭 美 美 事件 ”起 因 是 一 位 微 博 昵称 “ 郭 美美 baby” 的 人 在 网 上 公然 
炫耀 其 奢华 的 生活 ， 并 称 自己 是 中 国 红 十 字 会 商业 总 经 理 。 她 的 炫 富 微 博 起 初 只 被 一 小 部 分 网 友 看 到 
并 转发 ， 而 后 便 大 规模 地 被 转发 并 且 评论 ， 相 关 发 言 迅速 增长 到 了 64 余 万 条 ， 一 时 之 间 引 发 了 部 分 
网 友 对 中 国 红 十 字 会 的 非议 ， 成 为 当时 的 社会 热点 话题 。 这 一 事件 让 我 们 看 到 了 微 博 的 巨大 力量 。 另 
外 ， 微 博信 息 趋势 预测 的 研究 前 景 方向 极 广 ， 越 来 越 多 的 科研 项 目 都 开始 运用 微 博 上 的 数据 ， 进 行 对 
包括 金融 、 医 学 、 地 震 以 及 人 的 情绪 的 研究 ， 例 如 在 金融 界 的 病毒 式 营 销 (Viral Marketing) 模式 。 
当 我 们 想 为 一 个 新 产品 做 推广 的 时 候 , 倘若 已 经 知道 一 个 社交 网 络 中 个 体 间 的 影响 能 力 且 已 知 一 些 最 
有 影响 力 的 用 户 ， 那 么 可 以 通过 用 户 和 用 户 之 间 的 “ 口 口 相传 ”得 到 一 连 串 的 连锁 反应 ， 从 而 达到 网 
络 中 比例 相当 大 的 一 部 分 用 户 并 且 让 他 们 了 解 到 这 个 新 产品 。 一 些 侧重 于 “影响 最 大 化 ”的 数据 挖掘 
问题 就 是 在 研究 这 类 问题 并 将 它 转化 为 “如 何 从 K 个 节点 中 选 出 一 个 初始 集 从 而 使 得 网 络 最 后 有 最 多 
的 节点 能 受到 影响 ”的 问题 。 又 例如 在 医学 界 ， 一 些 科学 家 追踪 了 2009 年 和 2010 年 期 间 关 于 猪 流感 
的 微 博 ， 并 研究 了 这 些 相关 的 微 博 与 疫苗 接种 率 的 关系 。 通 过 比较 Twitter 数据 和 疫苗 接种 率 ， 美 国 
疾病 预防 与 控制 中 心 发 现 了 人 们 对 流感 疫苗 的 看 法 与 他 们 是 否 得 病 之 间 的 关联 模式 。 举 个 例子 , 新 英 
格 兰 是 美国 疫苗 接种 率 最 高 的 地 区 ， 也 是 最 多 Twitter 用 户 发 布 关 于 疫苗 接种 的 积极 信息 的 地 区 。 这 
项 科研 结果 发 表 在 《PLoS 生物 学 》 期 刊 上 。 医 护 人 员 可 以 利用 该 项 数据 来 预测 疾病 的 爆发 ， 且 能 更 
迅速 地 对 流行 病 做 出 反应 。 还 有 很 多 类 似 的 研究 也 已 经 开展 。 

针对 以 上 背景 ， 作 者 致力 于 研究 一 种 基于 微 博 的 信息 传播 预测 模型 ， 对 网 络 中 的 多 种 话题 进 
行 传播 预测 ， 并 将 基于 微 博 的 信息 传播 预测 模型 创新 地 应 用 到 股票 价格 涨 跌 预 测 中 。 研 究 表明 ， 
微 博 作 为 社交 网 络 的 一 个 产物 ， 已 成 为 一 个 充满 活力 的 在 线 交流 平台 ， 用 户 每 天 在 微 博 上 产生 海 
量 的 数据 并 在 用 户 之 间 产 生 大 量 的 信息 流传 播 据 统计 ,每 天 大 约 有 25 万 与 股票 相关 的 微 博 消息 ， 
通过 计算 语言 学 的 方法 对 这 些 消息 进行 分 析 ， 研 究 发 现 微 博 的 情绪 〈 比 如 看 涨 ) 能 够 在 一 定 程度 
上 影响 股票 日 交易 量 和 未 来 股票 的 涨 跌 。 从 而 达到 股票 预测 和 分 析 的 目的 。 一 些 调查 也 揭示 了 微 
博 情绪 与 股市 关联 的 冰山 一 角 ， 如 当 在 世界 杯 、 欧 洲 杯 的 国际 球赛 中 输 球 时 ， 微 博 平台 上 很 快 出 
现 很 多 负面 情绪 ， 当 地 的 股市 指数 也 会 受到 显著 的 负面 影响 。 

然而 ， 目 前 研究 人 员 对 于 社交 网 络 的 研究 面临 着 相当 多 的 挑战 。 由 于 微 博 中 的 信息 量 巨大 ， 
信息 的 种 类 和 话题 繁多 ， 并 且 消 息 的 传播 速度 也 很 快 ， 这 给 相关 的 研究 带 来 了 很 大 的 困难 和 巨大 
的 工作 量 。 因 此 ， 需 要 一 个 可 靠 的 算法 来 帮 我 们 从 海量 的 数据 中 提取 信息 并 且 能 够 了 解 信息 的 传 
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实战 大 数据 


播 方式 , 进而 预测 未 来 一 段 时 间 内 股票 市 场 的 趋势 。 本 系统 通过 对 Twitter 上 捕获 的 大 量 信息 进行 
过 滤 、 分 类 和 分 析 ， 应 用 构建 好 的 社交 网 络 结构 ， 分 析 用 户 之 间 的 相互 影响 和 信息 传播 路 径 ， 从 
而 预测 某 支 股票 在 未 来 一 段 时 间 内 的 涨 跌 趋势 。 这 对 于 帮助 投资 者 预测 和 分 析 股 市 ， 选 择 股票 进 
行 投资 ， 优 化 组 合 投资 ， 降 低 投 资 风 险 ， 获 得 最 大 收益 具有 重大 意义 。 


需求 分 析 与 总 体 设计 


10.2.1 需求 分 析 


本 系统 是 基于 微 博 的 股票 市 场 预 测 , 作者 以 Twitter 为 平台 来 进行 数据 采集 、 分 析 和 预测 研究 。 
在 具体 实现 中 需要 根据 Twitter 社交 网 络 的 特点 , 提取 股票 相关 的 微 博 内 容 ， 建立 股 票 兴趣 用 户 网 
络 ， 分 析 网 络 中 用 户 之 间 的 相互 影响 情况 ， 预 测 用 户 对 股票 的 看 涨 情感 以 及 看 跌 情感 在 整个 社交 
网 络 中 的 传播 趋势 ， 进 而 可 以 预测 该 股票 在 未 来 某 时 间 段 内 的 价格 涨 跌 趋 势 。 股 票 市 场 预测 系统 
的 框架 图 如 图 10.1 所 示 。 























图 10.1 股票 市 场 预测 系统 框架 图 
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从 系统 框架 图 可 以 看 出 , 股票 市 场 预测 系统 主要 由 Twitter 海量 数据 采集 、Twitter 海量 数据 分 
析 、 用 户 行为 分 析 、 股 票 预测 4 部 分 构成 。 其 用 例 图 如 图 10.2 所 示 。 


股 昧 市 场 预测 系统 





二 / % ~ 
| / S 





i Me | | 和 ~、 = 
Twitter 海量 数据 采集 Twitter 海量 数据 分 析 | 用 户 行为 分 析 股票 价格 预测 
用 例 包 用 例 包 用 例 包 用 例 包 
图 10.2 ”股票 市 场 预测 系统 用 例 包 
(1) Twitter 海量 数据 采集 


数据 采集 是 该 系统 的 基础 ， 用 户 需要 通过 该 系统 能 够 高 效率 地 对 海量 文本 进行 抽取 ， 并 且 能 
够 及 时 存 入 数据 库 中 。 高 效 及 时 的 采集 数据 是 实现 该 系统 的 前 提 。 数 据 采集 包括 两 个 基本 用 例 ; 
历史 微 博 采 集 和 用 户 信息 采集 。 图 10.3 为 Twitter 海量 数据 采集 用 例 图 。 























(历史 向 漆 集 
a <include» 
Twiter 海 量 数据 
“ wa <include» 


(用 户 信息 采集 


图 10.3 Twitter 数据 采集 用 例 图 


(1) ”历史 微 博 采 集 

在 该 用 例 中 ， 系 统 能 够 根据 特定 的 关键 字 , 在 Twitter 中 进行 搜索 ， 对 搜索 的 结果 进行 处 理 和 
解析 ， 提 取 系 统 需要 的 信息 ， 包 括 微 博 的 id、 内容、 发 布 时 间 、 发 布 作者 id 等 ， 然 后 将 这 些 信息 
存 入 数据 库 中 。 本 系统 是 对 股票 市 场 的 预测 ， 所 以 需要 采集 大 量 有 关 股 票 的 微 博 ， 在 Twitter 中 人 
们 谈论 某 支 股票 时 往往 以 “$”+ 股 票 缩写 为 关键 字 ， 这 为 采集 提供 了 很 大 的 便利 。 表 10.1 为 历史 
微 博 采 集 详细 用 例 表格 。 


表 10.1 历史 微 博 采 集 详细 用 例 表 





用 例 编号 | UC-1-1 
用 例 名 称 | 历史 微 博 采集 
参与 者 。 | 用 户 、 预 测 系统 


该 用 例 描述 了 系统 采集 历史 微 博 的 过 程 。 根 据 用 户 需要 采集 某 支 股票 的 关键 字 ， 系 统 通过 
描述 Twitter 提供 的 搜索 功能 ， 获 取 有 关 该 关键 字 的 所 有 微 博 消息 ， 对 海量 的 微 博 数据 进行 解析 ， 获 
取 包 括 微 博 的 id、 内 容 、 发 布 时 间 、 发 布 作者 id 等 数据 ， 然 后 将 这 些 信息 存 入 数据 库 中 
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( 续 表 ) 





参与 者 动作 系统 响应 
Step1: 输入 搜索 的 股票 关键 字 








Step2: 判断 该 关键 字 是 否 输入 正确 


Step3: 系统 向 Twitter 发 出 请 求 ， 搜 索 并 获取 该 关键 字 
用 例 典 型 事 的 所 有 微 博 消息 


件 流 Step4: 系统 对 获取 的 微 博 进行 处 理 ， 提 取 微 博 的 id、 
内 容 、 发 布 时 间 、 发 布 作者 i 等 内 容 


Step5: 系统 将 提取 的 海量 微 博 数据 存 入 数据 库 中 


Step6: 返回 成 功 获取 的 历史 微 博 
信息 

















可 选 事 件 流 ”| Step2， 如 果 搜 索 的 关键 字 不 是 有 关 股 票 内 容 的 ， 系 统 将 返回 “获取 信息 失败 ”提示 信息 
前 置 条 件 用 户 已 获取 需要 搜索 和 采集 的 股票 代码 
后 置 条 件 用 户 可 以 通过 数据 库 查 询 采集 到 的 历史 微 博 信息 
假设 无 











(2) 用 户 信息 采集 

在 该 用 例 中， 系统 能 够 根据 用 户 的 id 或 name 抽取 到 特定 用 户 在 Twitter 上 的 基本 注册 信息 ， 
包括 id、name、language、description、following、follower 等 。following 是 指 该 用 户 在 Twitter 上 
所 关注 的 那些 用 户 id 集合 ，follower 是 指 关注 该 用 户 的 那些 用 户 id 集合 。 这 里 系统 需要 采集 的 用 
户 是 指 发 布 了 有 关 谈 论 股票 微 博 的 那些 用 户 。 表 10.2 为 用 户 信息 采集 详细 用 例 表 。 

表 10.2 用 户 信息 采集 详细 用 例 表 

用 例 编号 | UC-1-2 
用 例 名 称 ”| 用 户 信息 采集 
参与 者 预测 系统 
该 用 例 描述 了 系统 采集 用 户 信息 的 过 程 。 根 据 某 个 用 户 的 id 或 name， 系 统 通过 Twitter 获取 该 用 户 
































描述 的 这 、name、language、description、following、follower 等 信息 ， 并 将 返回 结果 存 入 数据 库 中 
参与 者 动作 系统 响应 
Step1: 输入 用 户 id 或 name 
Step2: 确认 该 用 户 已 在 Twitter 注册 
用 例 典 型 Step3: 判断 该 用 户 信息 是 否 已 存 入 系统 数据 库 中 
事件 流 Step4: 系统 向 Twitter 发 出 请 求 ， 获 取 该 用 户 基本 信息 ， 包 


括 id、name、language、description、following、follower 等 
Step5: 系统 获取 采集 到 的 用 户 信息 ， 并 添加 到 数据 库 中 








StepG 返回 成 功 获取 的 用 户 信息 














384 





第 10 章 ”基于 微 博 的 股票 市 场 预测 系统 


( 续 表 ) 
Step2， 如 果 需 要 采集 的 用 户 在 Twitter 中 不 存在 或 已 过 期 ， 系 统 将 返回 “获取 用 户 信息 失败 ” 
提示 信息 。 
Step3， 将 用 户 这 在 数据 库 中 查询 ， 如 果 发 现 该 用 户 已 存 入 数据 库 ， 则 系统 不 再 向 Twitter 发 出 
请 求 ， 直 接 返 回 “ 该 用 户 已 存在 ”提示 信息 
前 置 条 件 系统 已 通过 采集 到 的 历史 微 博 ， 提 取出 该 微 博 的 用 户 id， 并 将 该 id 作为 需要 采集 用 户 的 id 输入 
后 置 条 件 用 户 可 以 通过 数据 库 查 询 采集 用 户 的 基本 信息 
假设 无 





可 选 事件 流 























2. Twitter 海量 数据 分 析 


数据 分 析 是 该 系统 的 关键 ， 系 统 能 够 对 采集 到 数据 库 中 的 海量 大 数据 进行 处 理 和 分 析 ， 提 取 
出 为 下 一 步 用 户 行为 分 析 和 股票 涨 跌 预 测 有 用 的 关键 数据 。 由 于 存储 的 是 海量 大 数据 ， 这 就 需要 
系统 能 够 高 效率 地 对 海量 数据 进行 数据 库 的 读 写 和 分 析 处 理 。 数 据 分析 包 括 三 个 基本 用 例 : 构建 
用 户 网 络 、 计 算 用 户 权威 值 、 涨 跌 情 感 分 析 。 图 10.4 为 Twitter 海量 数据 分 析 用 例 图 。 


(构建 用 户 网 络 


一 
sinclude> 一 
一 


> meiudey > 计 咎 用 关 权 左 信 、 


~ ehidns 


六 一 一 一 一 


图 10.4 Twitter 数据 分 析 用 例 图 
(1) 构建 用 户 网 络 
在 该 用 例 中 ， 系 统 根据 采集 到 的 用 户 信息 ， 为 每 一 支 股 票 构建 一 个 社交 网 络 结构 图 ， 在 该 结 
构图 中 的 所 有 用 户 都 会 经 常 谈 论 这 支 股票 ， 并 且 发 表 有 关 该 股票 的 微 博 信息 。 由 于 用 户 网 络 图 中 
每 个 用 户 都 不 是 孤立 存在 的 ,他们 需要 following 其 他 用 户 , 或 被 其 他 用 户 following,， 这 样 就 构建 
成 了 一 个 有 向 图 。 如 图 10.5 所 示 ， 图 中 的 箭头 表示 用 户 之 间 的 following 关系 。 系 统 通过 读 取 数 
据 库 中 采集 到 的 用 户 基 本 信息 ， 判 断 一 个 用 户 的 followers 和 followings， 构 建 基 本 的 用 户 网 络 图 。 
表 10.3 为 构建 用 户 网 络 详细 用 例 表 。 
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10.5 用 户 网 络 结构 图 


表 10.3 ”构建 用 户 网 络 详细 用 例 表 


用 例 编号 “| UC-2-1 

用 例 名 称 ”| 构建 用 户 网 络 

参与 者 预测 系统 

描述 该 用 例 描述 了 系统 构建 用 户 网 络 的 过 程 。 根 据 数据 库 中 采集 的 用 户 信息 ， 每 一 个 用 户 都 有 自己 
的 following 集合 和 follower 集合 ， 系 统 读 取 每 个 用 户 相应 的 集合 ， 判 断 用 户 之 间 是 否 有 
following 关系 ， 构 建 用 户 网 络 结构 图 ，following 关系 用 图 中 的 有 向 边 表 示 。 最 后 ， 将 构建 好 


的 图 结构 存 入 数据 库 中 
参与 者 动作 
Stepl; 读 取 数据 库 用 户 信息 [ai| 


Step2: 查询 该 用 户 的 following 和 follower 集 合 


四 step3， 根据 用 户 following 关系 构建 有 向 图 中 的 
事件 流 岂 


Step4: 系统 将 构建 的 有 向 图 存 入 数据 库 中 





Step5: 返回 网 络 图 结构 

可 选 事件 | Step2、Step3， 如 果 该 用 户 不 存在 following 或 follower 集合 ， 系 统 将 不 把 该 用 户 作为 图 中 节点 
流 存在 。 相 应 地 也 不 再 构建 有 关 该 用 户 节点 的 边 信息 

前 置 条 件 系统 将 用 户 基本 信息 存 入 数据 库 中 ， 并 且 能 够 查询 每 个 用 户 的 follower 和 following 集合 

后 置 条 件 用 户 可 以 查询 构建 的 网 络 结构 图 ， 并 判断 任意 用 户 之 间 的 following 关系 

假设 无 


(2) 计算 用 户 权 威 值 

该 用 例 是 在 系统 内 部 实现 的 ， 在 该 用 例 中 ， 系 统 对 采集 到 的 用 户 历史 微 博 进行 处 理 和 分 析 ， 
并 结合 用 户 自 身 的 一 些 基本 信息 ， 计 算出 该 用 户 在 社交 网 络 结构 中 的 权威 值 。 所 谓 权威 值 是 指 该 
用 户 在 社交 网 络 中 的 影响 力 和 言论 的 分 量 ， 权 威 值 高 的 用 户 ， 对 社交 网 络 中 子 节点 的 影响 就 大 ， 
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体现 在 对 子 节点 的 影响 概率 数值 上 就 会 更 大 一 些 ， 举 例 来 说 ， 美 国 总 统 奥巴马 (@Barack Obama) 
在 Twitter 平台 上 的 影响 力 与 普通 Twitter 用 户 的 影响 力 自然 有 明显 区 别 。 在 图 10.5 中 用 户 节点 的 
大 小 表示 了 该 用 户 的 权威 值 ， 权 威 值 越 高 则 节点 越 大 ， 反 之 ， 则 节点 越 小 。 表 10.4 为 计算 用 户 权 
威 值 详细 用 例 表 。 

表 10.4 计算 用 户 权威 值 详细 用 例 表 





用 例 编号 | UC-2-2 

用 例 名 称 ”| 计算 用 户 权威 值 

参与 者 预测 系统 

描述 该 用 例 描述 了 系统 计算 用 户 权威 值 的 过 程 。 系 统 根据 数据 库 中 采集 到 的 用 户 历史 微 博 ， 对 该 用 
户 所 发 布 的 微 博 进 行 分 类 与 处 理 ， 并 结合 用 户 的 基本 信息 ， 计 算出 该 用 户 在 社交 网 络 结果 中 的 
权威 值 ， 并 将 该 权威 值 作为 用 户 属性 的 一 部 分 存 入 数据 库 中 











参与 者 动作 系统 响应 

Step1: 读 取 数据 库 中 用 户 历史 微 博 和 用 户 

基本 信息 
用 例 典型 Step2: 对 用 户 历史 微 博 进行 分 类 和 处 理 
事件 流 Step3: 提取 用 户 基本 信息 


Step4: 计算 该 用 户 的 权威 值 并 存 入 数据 库 中 
Step5: 获取 并 查看 该 用 户 在 网 络 结构 中 的 
权威 值 
可 选 事 件 | Step4， 如 果 数 据 库 中 用 户 历史 微 博 进行 了 更 新 ， 则 需要 重新 计算 该 用 户 的 权威 值 ， 并 及 时 更 新 
流 该 用 户 数 据 库 中 的 权威 值 
前 置 条 件 | 该 操作 是 系统 内 部 发 出 的 
后 置 条 件 可 以 通过 数据 库 查 询 计算 出 的 用 户 权威 值 
假设 无 
(3) 涨 跌 情 感 分 析 
在 该 用 例 中 , 系统 对 提取 到 的 历史 微 博 进行 预 处 理 , 由 于 采集 到 的 历史 微 博 都 是 谈论 股票 的 ， 
那么 每 一 条 微 博 相 对 于 某 支 股票 都 会 有 一 定 的 情感 态度 ， 我 们 按 看 涨 、 看 跌 和 持平 〈 波 动 ) 三 种 
情感 进行 分 类 。 通 过 本 规范 化 、 分 词 、 去 停止 词 、 绑 定 和 否定 词 、 词 典 匹配 ， 对 微 博 的 情感 进程 计 
算 ， 并 将 计算 结果 存 入 数据 库 。 这 里 需要 注意 的 是 ， 由 于 波动 情感 在 判断 上 的 复杂 度 ， 为 了 简单 
起 见 ， 系 统 只 分 析 股 票 微 博 的 看 涨 和 看 跌 情 感 。 表 10.5 为 涨 跌 情 感 分 析 详细 用 例 表 。 


表 10.5 涨 跌 情 感 分 析 详 细 用 例 表 














用 例 编号 | UC-2-3 
用 例 名 称 | 涨 跌 情感 分 析 
参与 者 “| 预测 系统 














描述 该 用 例 描述 了 系统 对 微 博 内 容 进 行情 感 分 析 的 过 程 。 系统 根据 数据 库 中 采集 到 的 历史 微 博 ,对 微 
博 内 容 进行 规范 化 、 分 词 、 去 停止 词 、 绑 定 否定 词 、 词典 匹配 ,最终 分 析出 该 条 微 博 的 情感 态度 ， 
并 按 看 涨 和 看 跌 两 种 态度 存 入 数据 库 中 

用 例 典型 | 参与 者 动作 系统 响应 








事件 流 Step1: 读 取 数 据 库 中 历史 微 博 的 内 容 
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( 续 表 ) 










用 例 典 型 
事件 流 


Step2: 对 微 博 内 容 进行 规范 化 处 理 

Step3: 对 微 博 内 容 进行 分 词 、 去 停止 词 、 绑 定 否定 词 
Step4: 对 处 理 后 的 微 博 内 容 进 行 词 典 匹 配 

Step5: 按 看 涨 和 看 跌 两 种 态度 计算 出 微 博 的 情感 ， 并 
存 入 数据 库 中 

















Step6: 获取 并 查看 微 博 的 情感 
可 选 事件 | Step2， 如 果 微 博 内 容 已 经 达到 规范 化 要 求 ， 则 不 进行 规范 化 处 理 
Step3， 如 果 微 博 内 容 中 没有 停止 词 、 否 定 词 ， 则 不 进行 相应 的 处 理 
前 置 条 件 | 该 操作 是 系统 内 部 发 出 的 

可 以 通过 数据 库 查询 计算 出 的 微 博 情感 
假设 无 


3. 用 户 行为 分 析 

用 户 行为 分 析 是 本 系统 的 核心 部 分 ， 通 过 对 微 博 的 预 处理 ， 系 统 根据 得 到 的 用 户 网 络 、 用 户 
权威 值 、 微 博 情 感 分 析 等 信息 ， 对 网 络 中 用 户 的 行为 进行 一 定 的 分 析 ， 进 而 预测 出 未 来 一 段 时 间 
内 股票 价格 的 涨 跌 情 况 。 用 户 的 行为 分 析 主 要 包括 两 个 用 例 : 用 户 影响 概率 计算 和 联合 影响 概率 
计算 。 图 10.6 为 用 户 行为 分 析 用 例 图 。 




























计算 用 户 影 响 
LD 


«include» 


一 一 ( 用户 行为 分 折 ) 
co 


一 一 一 sincludey 
计算 联合 影响 
概率 


图 10.6 用 户 行为 分 析 用 例 图 
(1) 用 户 影响 概率 计算 
在 该 用 例 中 ， 系 统 根据 用 户 发 出 的 历史 微 博 ， 结 合用 户 之 间 的 网 络 关系 ， 可 以 计算 出 有 相互 
联系 的 用 户 之 间 的 依赖 关系 ， 这 种 依赖 关系 在 本 系统 中 称 为 用 户 影响 概率 ， 影 响 概率 越 大 ， 表 明 
该 用 户 受到 其 他 用 户 的 影响 越 大 ， 那 么 也 会 跟随 这 个 用 户 发 出 相似 的 行为 。 反 之 ， 则 表明 该 用 户 
行为 不 受 其 他 用 户 的 影响 。 在 计算 的 时 候 ， 系 统 还 会 计算 出 一 个 平均 影响 时 间 ， 表 明 用 户 之 间 
相互 影响 的 持续 时 间 为 多 长 。 表 10.6 为 用 户 影响 概率 计算 详细 用 例 表 。 


表 10.6 用户 影 响 概率 计算 详细 用 例 表 





用 例 编号 UC3-! 
用 例 名 称 ”| 用 户 影响 概率 计算 
参与 者 预测 系统 

描述 该 用 例 描 述 了 系统 对 网 络 中 用 户 之 间 影 响 概率 的 计算 过 程 。 系 统 根据 采集 到 的 用 户 历 史 微 博 ， 
以 及 用 户 之 间 的 网 络 关 系 ， 对 用 户 受 到 其 他 用 户 的 影响 概率 进行 计算 ， 并 且 计算 出 该 用 户 之 间 
的 评价 影响 时 间 
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( 续 表 ) 
参与 者 动作 系统 响应 
Step1: 读 取 数 据 库 中 历史 微 博 的 内 容 
Step2: 读 取 用 户 网 络 关系 
Step3: 计算 并 更 新 用 户 平 均 影响 时 间 
用 例 典 型 Step4: 根据 Jaccard 系数 连续 时 间 模 型 计算 用 户 之 
事件 流 间 的 影响 概率 
Step5: 将 用 户 之 间 的 平均 影响 时 间 和 影响 概率 存 
入 数据 库 中 
Step6: 获取 并 查看 平均 影响 时 间 和 影响 概 
率 
可 选 事件 | Step3、Step4， 如 果 用 户 的 历史 微 博 没有 发 出 相似 的 行为 ， 则 不 计算 该 用 户 的 平均 影响 时 间 和 影 
流 响 概率 
前 置 条 件 “| 该 操作 是 系统 内 部 发 出 的 
后 置 条 件 ”| 可 以 通过 用 户 影响 概率 进而 计算 用 户 所 受到 的 联合 影响 概率 
假设 无 


(2) 联合 影响 概率 计算 


在 该 用 


例 中 ， 系 统 根据 计算 出 的 用 户 影响 概率 ， 进 而 可 以 计算 出 该 用 户 受到 周围 所 有 父 节点 


的 联合 影响 概率 。 如 果 该 用 户 所 受到 的 联合 影响 大 于 一 个 闪 值 ， 则 可 以 预测 用 户 将 会 被 父 节 点 影 
响 ， 从 而 成 为 传播 节点 ， 获 得 传染 性 ， 可 以 将 行为 继续 传播 到 子 节点 中 未 被 影响 的 用 户 节点 。 表 


10.7 为 联合 


影响 概率 详细 用 例 表 。 


表 10.7 联合 影响 概率 计算 详细 用 例 表 








联合 影响 概率 计算 


该 用 例 描述 了 系统 对 网 络 中 用 户 所 受到 所 有 父 节点 的 联合 影响 概率 的 计算 过 程 , 系统 根据 计算 出 
的 单个 用 户 之 间 的 影响 概率 ， 通 过 自 定义 的 联合 影响 概率 公式 ， 计 算出 该 用 户 在 网 络 中 所 受到 的 
联合 影响 概率 





参与 者 动作 
Step1: 读 取 用 户 网 络 关系 
Step2: 读 取 数 据 库 中 该 用 户 与 周围 父 节点 









































用 例 典 型 | 的 用 户 影响 概率 
事件 流 Step3: 计算 该 用 户 所 受到 的 联合 影响 概率 
Step4， 将 得 到 的 联合 影响 概率 存 入 数据 库 中 

Step5， 获取 并 查看 联合 影响 概率 

可 选 事件 | 无 

流 

前 置 条 件 | 该 系统 已 经 计算 出 用 户 之 间 的 影响 概率 

后 置 条 件 | 无 

假设 无 
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4. 股票 预 则 


股票 预测 是 本 系统 的 最 后 一 部 分 ， 主 要 包括 情感 传播 预测 和 股票 涨 跌 预测 两 个 用 例 。 本 系统 
主要 根据 计算 出 的 用 户 行为 分 析 和 股票 情感 分 析 , 预测 出 涨 跌 两 种 情感 在 用 户 网 络 中 的 传播 趋势 ， 
判断 出 看 涨 和 看 跌 的 用 户 人 数 。 进 而 根据 “个 人 行为 受 情感 支配 ”理论 ， 可 以 预测 这 支 股 票 在 股 
市 收市 前 是 涨 还 是 跌 。 图 10.7 为 股票 预测 用 例 图 。 





( 情感 传播 预测 
es 
_ <include> ”一 
股 菜 预测 
NE ~ <include» 
~ > 一 一 一 
〈《 。” 股 桨 涨 跌 预 测 
A 





10.7 ”股票 预测 用 例 图 
(1) 情感 传播 预测 
在 该 用 例 中 ， 系 统 根据 数据 库 中 存储 的 微 博 情感 和 用 户 所 受到 的 联合 影响 概率 ， 可 以 预测 出 
看 涨 和 看 跌 这 两 种 情感 在 用 户 网 络 中 的 传播 趋势 。 在 预测 趋势 的 时 候 ， 系 统 会 设置 一 个 阔 值 ， 如 
果 用 户 所 受到 的 联合 影响 概率 大 于 该 冰 值 ， 则 证 明 该 用 户 会 受到 父 节点 情感 的 影响 ， 成 为 新 的 传 
播 节点 。 从 而 可 以 预测 出 整个 网 络 中 情感 的 传播 趋势 和 感染 人 数 。 表 10.8 为 情感 传播 预测 详细 用 
例 表 。 


表 10.8 情感 传播 预测 详细 用 例 表 





























用 例 编号 
用 例 名 称 ”| 情感 传播 项 测 
参与 者 预测 系统 
描述 该 用 例 描述 了 系统 对 网 络 中 情感 传播 预测 过 程 的 描述 。 系统 根据 闵 什 模型 ,设置 一 个 传播 阅 
信 以 计算 出 的 联合 影响 概率 和 微 博 情感 为 输入 ， 分 析出 未 来 一 段 时 间 内 看 涨 和 和 看跌 两 种 情 
感 在 网 络 中 的 传播 趋势 
参与 者 动作 
Step1: 读 取 数 据 库 中 微 博 情感 
Step2: 按 看 涨 和 看 跌 丙 类 情感 对 微 博 进行 分 
pole 类 ， 并 记录 用 户 信息 
Step3， 读 取 数 据 库 中 用 户 的 联合 影响 概率 
Step4。 设 定 闭 值 ， 并 根据 阅 值 模型 判断 出 情感 
的 传播 治 势 ， 按 看 涨 和 看 中 两 类 冯 势 进行 预 
可 选 事件 流 “| 无 
前 置 条 件 。 ”| 微 博 情感 分 析 和 联合 影响 概率 已 经 计算 完成 
后 置 条 件 。 | 无 
假设 天 
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(2) 股票 涨 跌 预 测 

在 该 用 例 中 ， 用 户 需要 选择 需要 预测 的 股票 代码 和 时 间 ， 系 统 根据 上 一 步 分析 的 情感 传播 趋 
势 ， 可 以 统计 出 预测 的 情感 趋势 ， 即 预测 的 看 涨 人 数 和 看 跌 人 数 ， 再 加 上 之 前 情感 分 析 的 用 户 人 
数 ， 系 统 将 两 部 分 人 数 进 行 统计 ， 再 根据 “个 人 行为 受 情感 支配 ”理论 ， 可 以 预测 这 支 股票 在 股 
市 收市 前 是 涨 还 是 跌 。 表 10.9 为 股票 涨 跌 预 测 详细 用 例 表 。 


表 10.9 ”股票 涨 跌 预 测 详细 用 例 表 

















用 例 编号 UC4-2 

用 例 名 称 。 | 股票 涨 路 预测 

参与 者 用 户 、 预 测 系统 

描述 该 用 例 描 述 了 系统 预测 股票 价格 涨 跌 的 过 程 。 用 户 输入 需要 预测 的 股票 代码 和 时 间 ， 系 统 根 
据 情感 传播 趋势 来 预测 股票 涨 路 ， 并 返回 给 用 户 最 终 预测 结果 
参与 者 动作 
Stepl: 输入 需要 预测 的 股票 代码 和 时 间 | | 

ee 

Step4， 系 统 将 预测 结果 返回 给 用 户 ， 并 预测 出 看 

Step5: 用 户 查看 预测 结果 > 

可 选 事件 流 | Step2、Step3、Step4， 如 果 用 户 输 入 的 是 无 效 的 股票 代码 ， 则 系统 不 能 做 出 正常 的 响应 

前 置 条 件 。 | 用 户 输 入 的 股票 代码 必须 是 有 效 的 ， 并 且 情感 传播 趋势 已 经 分 析 完 成 

后 置 条 件 。 | 无 

假设 无 


10.2.2 总 体 设计 


本 系统 通过 分 析 Twitter 这 一 社交 网 络 平台 ， 从 海量 的 Tweets 文本 中 提取 出 与 股票 相关 的 微 
博信 息 ， 同 时 构建 社交 网 络 ， 计 算出 用 户 在 社交 网 络 中 的 权威 值 ， 并 对 微 博 文本 进行 情感 分 析 。 
根据 社交 网 络 关 系 和 用 户 发 出 的 历史 微 博 ， 分 析出 用 户 之 间 的 行为 影响 关系 ， 从 而 可 以 预测 出 未 
来 一 段 时 间 内 , 带 有 情感 的 微 博 在 社交 网 络 中 的 传播 趋势 。 最 后 , 根据 用 户 情感 的 这 种 传播 趋势 ， 
便 可 以 预测 出 在 未 来 一 段 时间 内 股票 价格 的 涨 跌 趋势 。 由 于 在 社交 网 络 中 用 户 之 间 是 有 影响 和 联 
系 的 ， 某 个 用 户 对 某 支 股票 的 关注 和 态度 可 能 会 以 一 种 “病毒 ”的 形式 在 整个 网 路 中 传播 和 扩散 ， 
并 且 感染 与 他 有 关联 的 其 他 用 户 ， 从 而 影响 其 他 用 户 对 这 支 股票 的 情感 态度 ， 进 而 影响 该 用 户 的 
行为 。 另 外 ， 根 据 行为 经 济 学 研究 表明 ， 个 人 的 情绪 能 够 显著 地 影响 个 人 行为 和 决策 ， 社 会 网 络 
中 普遍 传播 的 情感 态度 就 可 以 影响 整个 社会 的 群体 决策 。 针 对 股票 市 场 ， 除 了 媒体 新 闻 可 以 影响 
股票 市 场 外 ， 公 共 情 感 态度 也 起 到 了 同等 重要 的 作用 。 心 理学 研究 就 已 经 表明 ， 除 了 信息 可 以 影 
响 人 的 决策 之 外 ， 情 感 也 是 极其 重要 的 。 而 行为 经 济 学 研究 更 是 进一步 认为 ， 金 融 决策 其 实 是 受 
清 感 和 情绪 驱使 的 。 本 章 介绍 的 系统 就 是 根据 这 一 原理 设计 的 。 

整个 系统 可 以 分 成 4 个 部 分 : 海量 微 博 数据 采集 、 海 量 微 博 数据 分 析 、 用 户 行为 分 析 和 股票 预测 。 
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其 中 ， 海 量 微 博 数据 采集 的 对 象 包括 两 部 分 内 容 ，Twitter 上 的 用 户 信息 和 与 股票 相关 的 历史 微 博 ， 然 
后 ， 根 据 用 户 信息 和 股票 历史 微 博 ， 对 海量 数据 进行 分 析 ， 计 算出 用 户 权威 值 和 微 博 涨 跌 情感 。 另 一 
方面 ， 用 抓 取 的 用 户 信息 和 用 户 发 布 的 tweets 构建 社交 网 络 ， 分 析 计 算出 用 户 之 间 的 影响 概率 。 进 而 
通过 用 户 之 间 的 影响 关系 ， 预 测 出 网 络 中 的 情感 传播 趋势 和 股票 在 未 来 一 段 时 间 内 的 涨 跌 趋势 。 

该 系统 可 以 分 成 以 下 几 个 部 分 : 


。 通过 Twitter 的 API 获得 用 户 数据 以 及 有 关 股票 的 微 博 相 关 信息 。 

日 Tweets 文本 分 析 根据 用 户 发 布 的 历史 微 博 ,分 析 用 户 在 社交 网 络 中 的 权威 值 ; 再 对 Tweets 
文本 进行 去 噪声 、 分 词 、 去 停止 词 、 匹 配 等 处 理 ， 得 到 该 条 微 博 的 情感 态度 。 

日 分 析 用 户 之 间 的 影响 关系 ， 计 算 用 户 之 间 的 影响 概率 和 用 户 所 受到 的 联合 影响 概率 。 

e 根据 用 户 受 到 的 联合 影响 概率 和 某 一 时 刻 所 有 用 户 微 博 的 情感 ， 设 计 阅 值 模 型 ， 分 析出 未 
来 一 段 时 间 内 情感 在 网 络 中 的 传播 趋势 ， 进 而 预测 出 未 来 股票 价格 的 涨 跌 趋势 。 


系统 的 流程 图 和 数据 流 图 如 图 10.8 和 图 10.9 所 示 。 


用 Twiter API 获 取 有 关 股 票 的 
Tweets 以 及 用 户 的 基本 信息 


计算 用 户 权威 值 并 对 海量 微 博 
进行 情感 分 析 


计算 用 户 所 受到 的 联合 影响 概 
率 并 分 析 用 户 行为 


根据 情感 在 网 络 中 的 传播 来 预 
测 未 来 股票 价格 的 涨 跌 情况 





10.8 ”基于 微 博 的 股票 市 场 预测 系统 流程 图 


用 户 描述 信息 


el) Cit 


选择 性 下 用 户 行 、} 分 析 结果 了 分析 结 : 
取 数 据 为 分 析 - 
| ~ 容 





Tweets 信 息 用 户 权威 值 


预测 结果 


Tweets 内 容 Tweets 情 感 
计算 用 户 孜 






FTweets 
行情 感 分 析 


图 10.9 基于 微 博 的 股票 市 场 预测 系统 数据 流 图 
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相关 技术 介绍 


10.3.1 社交 网 络 


1. 社交 网 络 基础 


社交 网 络 即 社交 网 络 服务 〈SNS )， 英 文 全 称 为 Social Network Service， 是 指 人 和 人 之 间 通 过 
朋友 、 血 缘 、 交 易 、 网 络 链接 、 疾 病 传 播 、 理 想 、 兴 趣 爱好 等 关系 建立 起 来 的 社会 网 络 结构 。 在 
网 络 中 ， 人 与 人 之 间 通 过 Blog、 点 评 、 群 组 等 功能 ， 来 为 网 络 的 用 户 进行 “画像 ” 当 这 种 “ 画 
像 ” 越 贴近 现实 中 人 的 社会 性 ， 网 络 的 社会 化 程度 就 越 高 。 

社交 网 络 起 源 于 网 络 社交 ， 随 着 网 络 交友 的 迅速 发 展 ， 社 交 网 络 也 在 其 中 慢 慢 形 成 、 演 化 、 
发 展 ， 为 人 们 的 生活 提供 更 便捷 的 信息 交流 。 社 交 网 络 一 直 朝 着 “节约 社交 时 间 和 物质 成 本 ， 获 
取 高 速 、 有 效 的 信息 ”这 一 方向 发 展 。 社 交 网 络 通过 网 络 这 一 平台 ， 把 不 同 的 人 联系 起 来 ， 形 成 
具有 某 一 特点 的 团体 。 

研究 表明 ， 社 交 网 络 覆 盖 了 社会 的 各 个 层次 ， 上 至 国家 外 交 ， 下 至 家 庭 关系 ， 并 且 对 于 问题 
的 解决 ， 组 织 的 运营 ， 以 及 个 体 的 成 功 都 起 到 了 决定 性 作用 。 

一 个 社交 网 络 由 有 限 的 一 群 或 者 多 个 群 的 行动 个 体 以 及 他 们 之 间 的 相互 联系 所 组 成 。 通 常 ， 
构成 社交 网 络 的 主要 要 素 包 括 个 体 、 群 体 和 关系 等 。 


® 个 体 : 社交 网 络 中 的 一 切 个 体 ， 表 示 在 一 个 网 络 中 具体 的 个 人 、 组 织 或 者 是 具有 其 他 集体 
性 质 的 社会 实体 .通常 我 们 用 “节点 ”来 表示 每 个 个 体 在 网 络 中 的 位 置 ， 任 何 一 个 个 体 都 
可 以 形式 化 为 一 个 节点 。 

e 群体 : 把 存在 某 类 关系 的 同一 类 节点 进行 一 定形 式 的 组 合 就 形成 了 一 个 群体 ， 群 体 之 间 的 
成 员 彼 此 也 可 能 会 有 一 些 相似 的 关系 ， 是 整个 网 络 关系 中 的 一 部 分 。 这些 所 谓 的 关系 可 能 
是 同一 个 地 区 、 学 校 或 者 是 有 相同 兴趣 爱好 等 在 群体 中 总 能 找到 和 自己 在 某 些 方面 存在 
一 定 契 合 度 的 其 他 个 体 ， 有 利于 彼此 之 间 信息 的 交流 和 分 享 。 

日 关系 : 指 将 网 络 的 不 同 节点 相互 之 间 联系 起 来 的 属性 。 通 过 一 定 的 关系 ,体现 出 了 社交 网 
络 中 的 个 体 的 社交 表现 。 


社会 网 络 的 理论 基础 源 于 著名 的 六 度 分 隔 理论 和 150 法 则 。 正 是 基于 这 两 个 主要 理论 ， 社 交 
网 络 得 到 了 飞速 的 发 展 。 


(1) 六 度 分 隔 理论 

六 度 分 隔 理论 (Six Degrees of Separation)， 是 由 美国 著名 社会 心理 学 家 米尔 格 伦 〈Stanley 
Milgram) 于 20 世纪 60 年 代 提出 ， 指 的 是 “你 和 任何 一 个 陌生 人 之 间 所 间隔 的 人 不 会 超过 六 个 ， 
也 就 是 说 ， 最 多 通过 六 个 人 你 就 能 够 认识 任何 一 个 陌生 人 。 

“六 度 分 隔 理论 ”说 明了 社会 中 普遍 存在 的 弱 纽 带 发 挥 着 非常 强大 的 作用 。 有 很 多 人 在 找 工 
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实战 大 数据 


作 时 就 会 体会 到 这 种 弱 纽带 的 效果 。 通 过 弱 纽带 ， 人 与 人 之 间 的 距离 变 得 非常 “相近 ”。Jon 
Kleinberg 把 这 个 问题 变 成 了 一 个 可 以 评估 的 数学 模型 我们 经 常 在 与 新 朋友 碰面 的 时 候 说 “世界 
真 小 ”， 因 为 往往 可 能 大 家 有 共同 认识 的 人 。Jon 的 研究 实证 了 这 个 观点 。 

“六 度 分 隔 理论 ”的 发 展 ， 使 得 构建 于 信息 技术 与 互联 网 络 之 上 的 应 用 软件 越 来 越 人 性 化 、 
社会 化 。 软 件 的 社会 化 ， 即 在 功能 上 能 够 反映 和 促进 真实 的 社会 关系 的 发 展 和 交往 活动 的 形成 ， 
使 得 人 的 活动 与 软件 的 功能 融 为 一 体 。“ 六 度 分 隔 理论 ”的 发 现 和 社会 性 软件 的 发 展 向 人 们 表明 : 
社会 性 软件 所 构建 的 “ 弱 链 接 ”， 正 在 人 们 的 生活 中 扮演 越 来 越 重 要 的 作用 。 


(2) 150 法 则 

150 法 则 (Rule of 150)， 是 指 公认 的 我 们 可 以 与 之 保持 社交 关系 的 人 数 的 最 大 值 是 130。 无 
论 你 曾经 认识 多 少 人 ， 或 者 通过 一 种 社会 性 网 络 服务 与 多 少 人 建立 了 弱 链 接 ， 但 是 那些 强 链接 仍 
然 符合 150 法 则 。 这 也 符合 “二 八 ” 法 则 ， 即 80% 的 社会 活动 可 能 被 150 个 强 链接 所 占有 。 

150 法 则 在 现实 生活 中 的 应 用 很 广泛 。 比 如 中 国 移动 的 “动感 地 带 ”SIM 卡 只 能 保存 150 个 
手机 号 ， 微 软 推出 的 聊天 工具 “MSN” 也 只 能 是 一 个 MSN 对 应 150 个 联系 人 。 


2. Twitter 介绍 


简单 来 说 ，Twitter 是 一 个 免费 的 社交 网 络 和 微型 博客 服务 。 任 何 用 户 可 以 发 送 一 条 被 限制 在 
140 个 字符 之 内 的 Twitter 消息 ， 被 称 为 tweets， 该 用 户 相应 的 “跟随 者 ”(followers) 就 能 及 时 查 
看 该 信息 并 发 表 评 论 。 所 谓 “ 跟 随 者 ”， 就 是 指 关 注 某 一 账号 所 发 布 内 容 的 其 他 Twitter 用 户 。 当 
然 用 户 也 可 以 主动 “追随 ”(following) 别人 。 它 通过 限制 信息 字数 、 即 时 抵达 、 用 户 自主 收发 和 
鉴别 真 伪 的 方式 ， 实 现 了 一 种 自主 、 互 动 、 简 洁 、 快 速 的 信息 传播 方式 。Twitter 是 即时 消息 的 一 
个 变种 ， 它 允许 用 户 将 自己 的 最 新 动态 和 想法 以 短 消息 的 形式 发 送 给 手机 和 个 性 化 网 站 群 ， 而 不 
仅仅 发 送 给 个 人 。 它 利用 无 线 网 络 、 有 线 网 络 、 通 信 技 术 ， 进 行 即时 通信 ， 是 微 博 的 典型 应 用 。 
现 如 今 随 着 人 们 对 Twitter 的 大 量 使 用 ， 它 在 商业 和 金融 证 券 业 正在 发 挥 着 一 定 的 影响 和 作 
用 。 在 企业 竞争 情报 搜集 工作 中 ， 竞 争 情报 工作 者 可 以 利用 Twitter 来 实现 此 前 难以 完成 的 功能 ， 
-方面 可 以 利用 Twitter 内 容 发 布 监控 来 掌控 竞争 对 手 行动 信息 ， 另 一 方面 通过 Twitter 交流 可 视 
化 来 构建 竞争 对 手 社交 网 络 图 。 这样 就 可 以 使 用 Twitter 在 竞争 情报 工作 中 发 挥 重要 的 作用 。 在 金 
融 证 券 业 可 以 通过 following 一 些 公司 的 相关 信息 和 一 些 证券 投 次 者、 基金 经 理 人 发 布 的 最 新 消 
息 ， 为 股票 市 场 的 预测 和 分 析 提 供 最 新 的 资讯 和 信息 。 
首先 ， 以 社交 网 站 的 标准 来 看 ，Twitter 规模 仍然 很 小 , 但 是 Twitter 可 以 提供 直接 的 重要 的 信 
息 ， 而 这 一 点 其 他 社交 网 站 无 法 比拟 ， 其 次 ，Twitter 要 求 用 户 在 该 网 站 上 发 布 文本 信息 每 次 不 得 
超过 140 个 字 。 你 可 以 被 别人 跟 帖 ， 别 人 也 可 以 跟 你 的 贴 ， 这 有 点 类 似 于 Facebook 的 状态 更 新 
服务 , 但 它 对 所 有 人 都 是 开放 的 ; 再 次 ， 由 于 Twitter 先进 的 服务 ， 便 捷 的 操作 方法 ， 截 止 到 2011 
年 初 ， 超 过 1.45 亿 人 都 在 使 用 Twitter， 这 使 得 Twitter 带 有 了 多 元 的 色彩 ， 具 有 国际 因素 ， 这 样 
对 于 国际 上 发 生 的 大 事 能 更 快 、 更 准确 地 显示 在 Twitter 上 , 对 于 不 同时 间 的 看 法 和 影响 因子 得 到 
了 大 幅度 的 提升 ， 这 样 也 使 我 们 具有 了 更 多 的 素材 和 研究 数据 。 最 后 ， 据 统计 ， 每 天 Twitter 上 大 
约 有 25 万 与 股票 相关 的 微 博 消息 , 一 些 热点 股票 每 天 相关 的 微 博 数量 更 是 巨大 , 比如 苹果 公司 股 
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票 $AAPL 以 及 Google (谷歌 ) 公司 股票 SGOOG， 每 天 就 有 上 万 条 相关 微 博 。 正 因为 如 此 ， 针 对 
我 们 的 研究 ，Twitter 无 疑 是 一 个 最 好 的 选择 。 


10.3.2 ”社交 网 络 表示 方法 


通常 研究 者 都 将 网 络 中 的 个 体 抽象 化 为 节点 ， 将 个 体 之 间 的 联系 抽象 化 为 连接 节点 的 边 ， 因 
此 大 部 分 的 研究 工作 都 是 基于 图 论 的 研究 。 随 着 社交 网 络 的 发 展 ， 通 过 对 一 些 具体 特性 的 深入 研 
究 ， 开 始 有 学 者 将 Hyperbolic Geometry 理论 应 用 到 社交 网 络 。 

1. 基于 图 论 的 表示 

-个 社交 网 络 用 图 G= 〈V，E，J) 表示 ，YV 表示 社交 网 络 中 的 用 户 集合 ， 是 信息 内 容 的 载 

体 ，E 表示 社交 网 络 中 用 户 的 关系 链接 集合 。J 表 示 有 向 图 中 的 每 条 边 ， 即 用 户 间 的 链接 所 建立 的 
时 间 。 

网 络 中 的 每 条 边 与 网 络 中 的 一 对 节点 是 相互 对 应 的 。 在 图 论 中 边 分 为 有 向 边 和 无 向 边 以 及 加 
权 图 和 无 权 图 ， 所 以 根据 网 络 的 具体 特性 ， 也 可 以 将 网 络 分 为 以 下 几 类 。 


无 向 网 络 : 网 络 中 边 是 无 向 的 ， 即 任意 节点 对 (i,j) 和 (j,i) 对 应 同一 条 边 。 

有 向 网 络 : 节点 对 (i,j) 和 (j,i) 不 属于 同一 条 边 。 

加 权 网 络 : 网 络 中 的 每 一 条 边 都 有 自己 相应 的 权重 。 

无 权 网 络 : 网 络 中 所 有 的 边 都 是 同等 地 位 的 ， 没 有 赋予 权重 值 ， 或 者 说 是 网 络 中 所 有 的 边 
的 权重 值 都 为 1。 


图 10.10 给 出 了 几 种 典型 的 网 络 结构 实例 。 通 常 我 们 所 指 的 网 络 都 默认 是 指 无 向 无 权 网 络 ， 
并 且 在 网 络 中 不 存在 下 面 所 指 两 种 情况 的 节点 : 任何 两 个 节点 之 间 不 会 有 多 条 边 进行 连接 ， 即 无 
重 边 ， 对 某 个 节点 没有 连接 向 自己 的 边 ， 即 无 自 环 。 


WN 


(a) 简单 无 向 网 络 (b) 有 向 网 络 《ce) 加 权 网 络 


图 10.10 ” 几 种 网 络 结构 图 


微 博 这 种 特殊 的 社交 网 络 用 有 向 图 G= (V，E，J) 表示 ， 其 中 E 是 微 博 网 络 中 的 关系 集合 ， 
微 博 中 用 户 u 关注 用 户 v 的 关系 链 用 〈uv) 表示 ， 其 中 (uv) EE， 用 户 v 关注 用 户 u 的 关系 链 
用 (vu) 表示， 同样 (vu) EE。 

微 博 中 用 户 发 出 的 微 博信 息 叫做 行为 ， 行 为 集合 用 一 个 表 Actions 〈UserAction,Time) 来 表 
示 ，Actions 表 是 由 三 元 组 〈uatu) 组成， 三 元 组 (ua,tu) 表 示 用 户 u 在 时 间 包 发 出 行为 a， 其 中 
uEV。 此 外 ， 使 用 Au 表示 行为 集合 中 用 户 u 发 出 的 行为 总 数 ，Aug 表示 行为 集合 中 用 户 u 和 用 
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户 Yv 发 出 相同 行为 的 数量 ， 而 Auk 表示 行为 集合 中 用 户 u 或 用 户 v 发 出 的 行为 数 。 很 明显 ， 有 : 
如 = 各 二 用 一 4ar 式 (10-1) 
Au 表示 行为 集合 中 用 户 v 发 出 的 行为 传播 到 用 户 u 的 数量 ， 即 用 户 v 影响 用 户 u 的 行为 总 数 。 
2. 基于 和 矩阵 的 表示 


(1) 邻接 矩阵 

邻接 矩阵 是 指 和 矩阵 中 的 元 素 由 是 从 节点 i 到 节点 j 的 边 的 条 数 。 如 果 一 个 网 络 中 有 mn Gi 节点 
表示 为 m) 个 节点 ， 那 么 邻接 矩阵 A= (ai) 是 一 个 nen 的 矩阵 ， 其 中 若 广 邻 接 mm， 那 么 ar1， 耕 
则 ai=0。 如 果 为 加 权 网 络 ， 则 只 需要 矩阵 不 为 0 的 边 信息 存放 相应 边 的 权 值 即 可 。 简 单 网 络 关系 
拓扑 图 及 其 邻接 窍 阵 表示 如 图 10.11 所 示 。 

(2) 关联 矩阵 

关联 矩阵 是 关于 网 络 中 节点 和 关联 边 之 间 关 系 的 矩阵 ， 记 为 R= (ry)。 对 于 一 个 图 G, 记 p 
为 节点 个 数 ，q 为 边 的 总 数 ， 方 表示 在 关联 窍 阵 中 节点 寺 和 边 j 之 间 的 关系 ， 若 节点 1 和 边 j 之 间 
是 连 着 的 ， 则 ry =1， 和 否则 方 =0。 如 果 为 加 权 网 络 ， 则 只 需要 矩阵 不 为 0 的 边 信息 存放 相应 边 的 
权 值 即 可 。 简 单 网 络 拓扑 图 及 其 关联 窍 阵 表示 如 图 10.12 所 示 。 


1 el 多 


1 2 0 111 i111 
0000 e2 e3 1 0 .00 
0001 0101 
3 法 0 0 0 0 3 过 4 001 1 
图 10.11 简单 网 络 拓扑 图 及 邻接 矩阵 表示 图 10.12 ”简单 网 络 拓扑 图 及 关联 矩阵 表示 


10.3.3 ”信息 传播 模型 


任何 传播 模型 都 包含 两 个 因素 : 传播 规则 和 网 络 拓扑 结构 。 研 究 网 络 上 的 传播 行为 ， 通 常 不 
区 分 其 对 象 是 计算 机 病毒 还 是 在 人 群 中 传播 的 疾病 ， 通 常 能 在 网 络 上 传播 开 的 东西 在 研究 时 都 被 
叫做 传染 病 ， 哪 怕 它 只 是 一 个 谣言 。 目 前 研究 最 广泛 的 传染 病 模型 是 SIR 和 SIS 模型 。 这 两 种 模 
型 实际 上 都 规定 了 传播 规则 ， 但 都 是 无 结构 的 。 此 处 无 结构 是 指 任何 两 个 个 体 之 间 都 有 联系 ， 换 
言 之 ， 传 播 可 以 在 任何 两 个 个 体 之 间 发 生 ， 或 者 说 任何 两 个 个 体 之 间 有 着 同样 的 传播 行为 。 后 来 
的 包括 研究 信息 传播 或 与 论 形 成 的 模型 都 是 有 结构 的 传播 模型 。 


1. 无 结构 传播 模型 


(1) SIR 模型 
基本 状态 包括 : 易 感 状态 (S)、 感 染 状 态 〈I) 和 移 除 状态 (R)。 易 感 状 态 是 健康 状态 ， 但 
有 可 能 被 感染 ;感染 状态 即 染 病 的 状态 ， 其 具有 传染 性 ; 移 除 状态 即 感染 后 被 治愈 并 获得 了 免疫 
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力 或 感染 后 死亡 的 状态 ， 其 不 具有 传染 性 ， 也 不 会 被 传染 。 他 们 不 再 会 对 其 他 人 产生 影响 ， 所 以 
可 以 看 作 已 经 从 系统 中 移 除 。 易 感 个 体 被 感染 ， 然 后 恢复 健康 并 获得 免疫 力 ， 这 样 的 传播 模型 我 
们 称 为 SIR 模型 。 

假设 易 感 染 个 体 在 单位 时 间 内 被 某 个 染病 个 体 传 染 的 概率 为 B， 而 染病 个 体 康复 的 概率 为 y， 
并 用 s、i 分别 标 记 S、I、R 类 个 体 所 占 比 例 ， 则 在 SIR 模型 中 ， 传 染病 传播 可 以 用 下 面 的 微 
分 方程 组 来 描述 。 


=-Bis . =Bis—Y¥i 和 = 他 
di dt 式 (102) 





ds 
dt 


(2) SIS 模型 

SIS 传播 模型 中 的 个 体 只 存在 两 种 状态 : 易 感 状态 〈S) 和 感染 状态 〈1)。 易 感 个 体 被 感染 ， 
然后 恢复 健康 ， 但 其 有 可 能 再 次 被 传染 ， 所 以 是 从 感染 状态 恢复 到 易 感 状态 ， 这 样 的 传播 模型 我 
们 称 为 SIS 模型 。 假 设 易 感 个 体 和 感染 个 体 的 在 总 体 中 所 占 的 比例 分 别 为 s 和 i 在 每 个 单位 时 间 
内 ， 如 果 系 统 中 易 感 个 体 被 感染 的 概率 为 B， 同 时 ， 感 染 个 体 被 治愈 ， 变 为 易 感 个 体 的 概率 为 y。 

SIS 模型 对 应 的 微分 方程 描述 为 : 
ds /aR 
Bis 省 Bis—Yyi 0 


2. 有 结构 传播 模型 

以 上 两 种 传播 模型 并 没有 考虑 人 际 网 络 的 结构 ， 是 在 无 结构 的 群体 上 的 传播 模型 。 当 然 也 可 
以 把 这 种 无 结构 群体 看 成 是 有 结构 的 ， 即 它 是 一 个 完全 图 。 也 就 是 说 ， 在 这 个 图 上 ， 任 何 两 个 人 
之 间 都 有 联系 。 但 这 在 现实 生活 中 是 不 可 能 的 。 只 有 在 一 个 非常 小 的 群体 上 才 有 可 能 实现 任何 两 
个 人 之 间 都 有 联系 。 由 前 面 所 提 到 的 150 法 则 可 知 ， 这 样 的 群体 的 数目 的 上 限 是 151。 当 然 实际 
中 的 这 种 群体 一 定 是 远 远 低 于 这 个 上 限 的 。 比 如 学 校 中 的 两 个 班级 ， 班 内 的 每 个 同学 之 间 都 有 联 
系 是 可 能 的 ， 但 要 求 两 个 班 中 任何 两 个 同学 都 相互 认识 并 不 容易 。 所 以 实际 信息 传播 的 人 际 网 络 
是 有 结构 的 。 基 于 这 种 情况 ， 提 出 的 传播 模型 主要 有 社会 影响 模型 。 

社会 影响 模型 的 主要 特点 是 : 


。 每 个 个 体 的 观点 用 0 表示 ， 每 个 个 体 可 以 取 两 种 观点 ， 即 0 € {一 1,+1} ; 

@ 每 个 个 体 受 到 群体 中 所 有 其 他 个 体 的 影响 ， 其 中 ， 与 该 个 体 观点 相同 的 个 体会 给 他 支持 ， 
而 与 该 个 体 观点 相反 的 个 体会 给 他 劝说 。 即 ， 若 j 与 菜 个 体 观点 相同 ， 则 j 会 给 该 个 体 支 
持 其 支持 程度 的 大 小 用 9) 表示， 而 j 对 与 其 观点 相反 的 个 体 的 劝说 程度 大 小 用 已 表示 ; 

。 社会 群体 对 其 中 个 体 施加 的 影响 力 是 群体 中 个 体 的 数目 及 他 们 的 社会 直接 作用 力 的 增 函 数 ; 

e。 人 与 人 之 间作 用 力 的 大 小 与 其 之 间 的 “社会 距离 ”成 反比 ; 


系统 的 演化 规则 如 下 : 
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o,(t+1)=—sign(o, (1)1,(1)+h) 式 (10-4) 


其 中 ， 五 是 系统 中 所 有 人 对 i 的 社会 影响 力 总 和 ，h 是 随机 变量 ， 引 入 系统 噪声 。 这 个 模型 类 似 
于 无 结构 的 。 因 为 根据 定义 ， 任 何 个 体 之 间 都 有 影响 。 但 这 个 模型 又 与 前 面 的 模型 不 同 ， 其 中 任何 人 
的 影响 力 是 不 一 样 的， 其 大 小 与 “社会 距离 ”有 关 。 而 前 面 模型 中 ， 所 有 人 的 影响 力 是 一 样 的 。 

上 面 提 出 有 结构 传播 模型 中 ， 人 际 关 系 网 的 结构 是 规则 结构 ， 它 定义 在 二 维 方 格 上 。 但 实际 
的 人 际 关系 网 络 却 不 是 一 个 规则 的 网 络 ， 很 显然 ， 不 同人 的 朋友 的 数目 不 可 能 完全 一 样 ， 这 表现 
在 人 际 网 络 上 就 是 节点 的 度 是 有 变化 的 。 所 以 研究 信息 传播 模型 的 时 候 ， 不 仅 要 给 出 合理 的 传播 
规则 ， 还 要 给 出 合理 的 网 络 结构 。 


详细 设计 与 实现 


10.4.1 Twitter 数据 采集 模块 详细 设计 


Twitter 为 了 鼓励 第 三 方 应 用 软件 的 发 展 和 应 用 ， 以 API (Application Programming Interface ) 
的 方式 开放 了 一 些 应 用 接口 ， 这 种 应 用 接口 也 叫 开放 API。 网 站 提供 开放 平台 的 API 后 ， 可 以 吸 
引 一 些 第 三 方 的 开发 人 员 在 该 平台 上 开发 商业 应 用 ,平台 提供 商 可 以 获得 更 多 的 流量 与 市 场 份额 。 
而 通过 Twitter 开放 的 API， 任 何 对 Twitter 平台 有 兴趣 的 开发 者 都 可 以 通过 API 开发 基于 Twitter 
平台 的 软件 应 用 ， 来 优化 产品 对 Twitter 用 户 的 体验 。 

如 今 ， Twitter 提供 两 种 API, 其 中 一 种 是 Twitter 官方 开发 的 , 用 于 获取 用 户 信息 、 用 户 微 博 、 
用 户 认证 等 功能 ， 另 外 一 种 则 是 Twitter 收购 Summize 而 得 到 的 search API， 提 供与 Twitter 相关 
的 搜索 ， 尤 其 是 实时 搜索 。 今 天 的 Twitter API 系统 每 天 收 到 超过 三 十 亿 次 的 请 求 ， 这 里 需要 的 股 
票 言 论 相 关 的 微 博 则 通过 Twitter 的 搜索 API 和 用 户 信息 API 获得 。 

Twitter 平台 大 多 数 API 请 求 都 要 求 用 户 认证 ， 返 回 的 结果 均 与 认证 用 户 有 关系 。 最 简单 的 认证 
方法 是 HTTP Basic Authentication 验证 机 制 ， 使 用 在 Twitter 中 注册 用 户 名 作为 Session 或 Cookie 的 用 
户 名 部 分 内 容 。Twitter API 根据 用 户 特定 的 请 求 返回 对 应 特定 格式 的 数据 ， 平 台 目前 支持 以 下 4 种 数 
据 返回 格式 : XML、JSON、RSS、Atom。 开 发 者 可 以 在 每 次 请 求 时 使 用 不 同 的 请 求 方法 指定 不 同 的 
返回 结果 。 本 系统 在 提取 股票 言论 相关 的 微 博 内 容 时 ， 采 用 XML 的 返回 格式 ， 根 据 设计 的 XML 解 
析 工 具 对 内 容 进 行 解析 ， 并 将 返回 内 容 存 入 到 数据 库 中 。 截 止 到 编写 时 间 ，Twitter API 已 更 新 到 1.1 
版 本 ， 与 之 前 版 本 相 比较 ，API 在 资源 访问 地 址 以 及 参数 列表 方面 都 有 较 大 不 同 ， 开 发 者 应 该 根据 实 
际 情况 选择 合适 的 API 版本。 以 下 是 提取 微 博 内 容 主 要 用 到 的 TwitterAPI 介绍 它 基 于 最 新 1.1 版 本 。 


e@ 返回 能 够 匹配 查询 字符 串 的 相关 微 博 集合 ，GET search/tweets 。 资 源 访问 地 址 为 
https://api.twitter.com/1.1/search/tweets.xml，API 接受 的 部 分 参数 如 表 10.10 所 示 。 
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表 10.10 GET search/tweets API 的 参数 列表 








参数 参数 描述 
q Gequired) | 查询 字符 申 ， 最 长 1000 个 字符 
count | 返回 每 页 的 最 多 结果 数量 ， 最 大 值 100， 默 认 值 15 








retum_type ”| 指定 返回 结果 的 类 型 
可 选 类 型 : mixed，recent，popular 
Since id 返回 结果 中 的 微 博 ID 比 指定 值 大 
max id 返回 结果 中 的 微 博 ID 小 于 或 等 于 指定 值 


日 返回 指定 用 户 的 扩展 信息 ， 需 要 给 定 用 户 的 这 或 显示 名 称 ，GET users/show。 扩 展 信 息 包 
括 用 户 的 页 面 设置 、 微 博 数量 等 ， 并 且 用 户 最 近 发 表 的 微 博 消息 也 可 能 包括 在 内 。 资 源 访 
问 地 址 为 http://api.twitter.com/1.1/users/show.xml， 当 访问 Twitter 用 户 rsarver 时 ， 访 问 以 
下 地 址 : 














https://api.twitter.com/1.1/users/show.xml?screen name=rsarver 


@ 返回 指定 用 户 在 Twitter 中 跟随 ( follow ) 的 用 户 ， 在 API 中 以 friends 表示 ，GET friends/ids。 
返回 列表 按照 指定 用 户 最 近 跟 随 的 用 户 优 先 的 顺序 排列 ， 资 源 访问 地 址 为 
https://apitwitter.com/1.1/friends/ids.xml， 当 提取 用 户 twitter API 关注 的 Twitter 用 户 时 ,访问 : 


https://api.twitter.com/1.1/friends/ids.xml?screen name=twitterapi 


@ 返回 指定 用 户 在 Twitter 中 被 跟随 的 用 户 (followers ) ，GET followers/ids。 资 源 访问 地 址 
为 https://api.twitter.com/1.1/followers/ids.xml， 当 提取 用 户 的 粉丝 时 ， 访 问 : 


https://api.twitter.com/1.1/followers/ids.xml?screen name=sitestreams 


这 里 通过 Twitter 提供 的 API， 按 照 上 文中 的 使 用 形式 ， 从 Twitter 平台 中 提取 需要 的 股票 言 
论 相 关 的 微 博 内 容 。 比 如 ， 按 照 关 键 字 “$AAPL” 搜 索 苹果 公司 股票 相关 的 微 博 消息 ， 搜 索 结果 
中 , id 为 29242868 的 用 户 于 2011-08-09 18:32:36 发 布 一 条 微 博 “$aapl get in now good news 3rd qtr 
great and 4 qtr even better，300% increase in rev in last 90 day”， 然 后 根据 该 用 户 id 通过 API GET 
users/show， 查 询 到 用 户 名 为 TrendRida， 使 用 语言 为 eng， 关 注 FinanceTrends 等 188 个 用 户 ， 粉 
丝 有 Mark_Lexus 等 2427 个 用 户 ， 最 终 将 提取 的 数据 整理 并 存 入 数据 库 中 。 

值得 注意 的 是 ，Twitter 平台 API 在 使 用 上 是 有 限制 的 ， 每 个 客户 端 每 小 时 最 多 发 送 150 次 请 
求 ， 每 次 请 求 返回 微 博 内 容 的 发 布 时 间 不 超过 一 周 。 本 文 在 使 用 Twitter API 提取 股票 言论 相关 微 
博时 ， 需 要 定时 发 送 请 求 ， 以 免 超 过 时 间或 内 容 限制 ， 造 成 程序 不 必要 的 影响 。 另 外 ， 由 于 众 所 
周知 的 原因 ，Twitter 内 容 在 国内 无 法 访问 ， 这 里 使 用 GoAgent 代理 访问 Twitter。 

根据 系统 的 需求 ， 需 要 从 Twitter 中 获取 两 种 信息 : 用 户 信息 和 Tweets 信息 。 相 关 的 类 结构 
和 流程 图 如 下 。 


® 用 户 (User) 类 : 包括 用 户 ID (id) ， 用 户 名 字 (name) ， 用 户 昵 称 (screen_name ) ， 
用 户 位 置 (location ) ， 语 言 (lang ) ，Tweets 内 容 ( status，status 的 数据 类 型 是 Status 类 ) 。 
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类 图 如 图 10.13 所 示 。 

e@ Tweets 信息 ( Status ) 类 : 包括 创建 时 间 (created_at) ，TweetID (id) ，Tweet 文 本 内 容 
(text) ，Tweet 来 源 (source ) ， 回 复 该 条 Tweet 的 用 户 ID (in reply to status id ) ， 回 
复 Tweet 的 Tweet ID ( in reply to user id ) ， 回复 Tweet 的 用 户 昵 称 
(in_reply_to_screen_name ) 。 其 类 图 如 图 10.14 所 示 。 




















User S 
;String ed 
-name : String ee -text : String 
-screen_name : String -source : String 
-location : Strng -in_reply_to_status_id : String 
-description : String -in_reply to_user id: String 
-lang : String -in_reply to_screen_name : String 
-status : Status -user : User 
+User() : create +Status() ; create 
+toString() : String +toString() : String 
10.13 用 户 类 图 图 10.14 消息 类 图 


@ Tweets 数据 提取 流程 


根据 图 10.15 所 示 ， 获 取 到 的 数据 通过 解析 类 ConvertBean 对 获取 的 XML 进行 解析 ， 该 解析 类 
的 类 图 如 图 10.16 所 示 。 随 后 通过 Receiver 类 返回 最 终 获 取 的 数据 ， 且 该 类 类 图 如 图 10.17 所 示 : 





到 过 代理 软件 登录 Twitter 








使 用 Twitter 提供 的 API 获 取 用 









(Status) 的 XML 





使 用 ConvertBean 类 对 获取 的 
XML 文件 进行 解析 














(LserNode) 
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Receiver 





-userString : String 

-friendsString : String 

-userLineString : String 

-stockLineString : Strim 

+getUser( in_userlD : String ) : User re dd 

+getFriends( in_userlD : String ) : users i 

+getUserStatus( in_userlD : String ) : Status 站 Ta 人 Can 省 Sa 

+getStockStatus( in_stockName : String ) : Status ee te ee a Siig ): Status 
+receiverStockStatus ( in_time : String, in_stockName : String ) : Status 





ConvertBean 


























10.16 ”ConvertBean 类 图 10.17 Receiver 类 图 
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10.4.2 ”Twitter 数据 分 析 模 块 详 细 设 计 


本 节 主 要 介绍 Twitter 数据 分 析 模块 的 设计 ， 包 括 股票 微 博 涨 跌 情感 分 析 和 Twitter 平台 用 户 
权威 值 计 算 两 部 分 。 


1. 股票 微 博 涨 跌 情感 分 析 


本 系统 在 分 析 股 票 言论 的 看 涨 或 看 跌 情 感 在 微 博 网 络 中 传播 之 前 ， 先 要 对 股票 言论 微 博 进行 
崩 感 分 析 。 对 于 股票 言论 而 言 ， 股 票 相 关 的 情感 有 看 涨 、 看 跌 和 持平 〈 波 动 ) 三 种 情感 。 由 于 波 
动情 感 在 判断 上 的 复杂 度 ， 为 了 简单 起 见 ， 这 里 只 分 析 股票 微 博 的 看 涨 和 看 跌 情 感 。 

Twitter 使 得 互联 网 用 户 可 以 随时 随地 的 接 入 到 网 络 ， 并 随心 所 欲 地 发 表 自己 的 观点 和 情感 ， 
这 导致 Twitter 上 的 微 博 内 容 杂 乱 无 章 ， 以 网 络 语言 为 主 ， 无 固定 结构 ， 无 规律 可 循 。 针 对 Twitter 
微 博 内 容 的 短文 本 特征 和 噪声 特征 , 本 文 提出 的 股票 微 博 的 情感 分 析 分 为 5 个 步骤 : 文本 规范 化 、 
分 词 、 去 除 停止 词 、 绑 定 否定 词 和 匹配 情感 字典 。 有 具体 流程 如 图 10.18 所 示 。 





绵 定 否定 词 


10.18 情感 分 析 流 程 
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实战 大 数据 
以 微 博 内 容 “RT @Reuters: Apple briefly edged past Exxon Mobil to become the most valuable 
company in the U.S. http://t.co/vOmNjD SAAPL” 为 例 ， 情 感 分 析 的 流程 图 如 图 10.19 所 示 。 


“RT @Reuters: Apple 
briefly edged past Exxon 


Mobil to become the most 
valuable company in the U.S. 
http://t.co/yOtnNiD 
SAAPL” 


一 一 一 了 ] 单词 由 空格 隔 开 








“Apple briefly edged past 
Exxon Mobil to become the 


most valuable company in the 
US” 





“Apple briefly edged 
past Exxon Mobil 


valuable company US” 





匹配 看 涨 情感 “| 一 一 一 -| 匹配 情感 词典 


图 10.19 ”股票 微 博 涨 跌 情感 判断 流程 图 


(1) 文本 规范 化 
Twitter 微 博 内 容 存在 网 页 链接 、 用 户 对 话 、 标 点 符号 、 表 情 符号 、 专 用 词汇 等 噪声 ， 在 分 析 
票 言论 情感 时 ， 先 对 微 博 内 容 进行 文本 去 噪 ， 将 微 博 内 容 规范 化 ， 只 保留 股票 言论 相关 内 容 。 

对 “RT @Reuters: Apple briefly edged past Exxon Mobil to become the most valuable company in 
the U.S. http://t.co/vOtnNjD $AAPL” 微 博 进行 规范 化 , 微 博 中 “http://t.co/vYOmNjD” 属 于 网 络 链接 ， 
“RT” 是 Twitter 专用 词汇 一 一 转 推 ,“@Reuters” 是 用 户 对 话 ， 这 些 都 属于 非 规范 化 内 容 ， 将 原 
微 博文 本 规范 化 后 的 结果 是 “Apple briefly edged past Exxon Mobil to become the most valuable 

company in the US ”。 


(2) 分 词 

由 于 情感 分 析 是 对 文本 中 有 意义 的 单词 或 词组 进行 计算 ， 所 以 必须 要 对 微 博文 本 内 容 进 行 分 
词 处 理 。Twitter 的 每 条 微 博 内 容 局 限 在 140 个 英文 字符 内 ， 每 个 单词 的 信息 量 很 大 ， 因 此 本 文 使 
用 的 分 词 方法 就 是 简单 的 以 空格 符 和 标点 符号 为 边界 ， 并 且 只 考虑 英文 部 分 。 本 文 的 分 词 方法 昌 
然 简单 ， 但 是 对 于 Twitter 微 博 文本 来 说 却 是 很 适用 的 。 
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(3) 去 除 停止 词 

停止 词 ， 是 由 英文 单词 stopword 翻译 过 来 的 ， 通 常 意义 上 ， 停 用 词 大 致 分 为 两 类 ， 一 类 是 人 
类 语言 中 包含 的 功能 词 ， 这 些 功 能 词 极其 普遍 但 没有 什么 实际 含义 ， 比 如 the、is、at、which、on 
等 。 另 一 类 包括 词汇 词 ， 比 如 want 等 。 这 些 词 的 应 用 十 分 广泛 ， 但 是 文本 分 析 无 法 保证 能 够 给 出 
真正 相关 的 结果 ， 会 降低 处 理 的 效率 ， 所 以 通常 会 把 这 些 词 从 文本 中 移 去 ， 从 而 提高 文本 分 析 性 
能 。 

这 里 使 用 的 停止 词 都 是 人 工 输入 、 非 自动 化 生成 的 ， 人 工 输入 的 停止 词 形成 一 个 停止 词 表 ， 
确保 停止 词 的 过 滤 符 合股 票 言 论 情感 分 析 的 需求 。 对 于 文本 规范 化 及 分 词 后 的 微 博 “Apple briefly 
edged past Exxon Mobil to become the most valuable company in the US”， 去 除 其 中 的 停止 词 to、 
become、most、in 和 the, 最 终结 果 为 “Apple briefly edged past Exxon Mobil valuable company US ”。 


(4) 绑 定 否定 词 

英语 等 语言 中 表示 和 否定 意义 的 词 ， 有 独特 的 语法 意义 和 影响 ， 如 英语 中 的 no、not、never、 
hardly、rarely、few、little、seldom 等 。 本 文 将 否定 词 出 现 位 置 的 前 一 个 词 和 后 一 个 词组 成 两 种 组 
合 ， 例 如 Ido notlike $SGOOG， 将 被 视 为 dotnot 和 nottlike 两 种 。 


(5) 匹配 情感 字典 

情感 词 指 蕴含 情感 色彩 的 词语 ， 它 可 以 表达 用 户 的 内 心情 绪 。 情 感 色彩 是 用 户 对 客观 事物 所 
持 有 的 态度 ， 通 常 分 为 宫 义 和 贬义 两 种 情感 色彩 。 文 本 情感 分 析 中 ， 主 要 通过 对 句子 中 情感 词 的 
识别 ， 作 为 判断 文本 情感 倾向 的 依据 。 对 于 股票 言论 相关 的 微 博 内 容 来 说 ， 看 涨 情感 和 看 跌 情感 
分 别 为 用 户 对 股票 持 有 的 两 种 截然 相反 的 态度 。 为 分 析 微 博 内 容 的 情感 倾向 ， 这 里 建立 了 看 涨 情 
感 字典 以 及 看 跌 情 感 字典 。 经 过 前 面 4 个 步骤， 处 理 后 的 微 博文 本 将 和 两 种 词典 逐一 比 对 ， 记 录 
匹配 程度 ， 进 而 得 到 用 户 的 情感 : 看 涨 或 者 看 跌 。 本 节 采 用 的 例子 中 存在 valuable 一 词 ， 而 该 单 
词 就 是 看 涨 情感 字典 中 判断 用 户 看 涨 情感 有 力 的 依据 , 所 以 得 到 该 用 户 对 苹果 公司 股票 $AAPL 持 
有 看 涨 的 态度 。 

2. Twitter 平台 用 户 权威 值 计算 

在 计算 用 户 之 间 的 行为 影响 概率 之 前 ， 首 先 要 计算 社交 网 络 中 每 个 用 户 的 主题 权威 值 。 主 题 
就 是 用 户 的 兴趣 点 所 在 ， 对 于 股票 市 场 来 说 ， 用 户 关 注 的 主题 就 是 特定 的 某 支 股票 ， 比 如 AAPL 

(苹果 股票 )。 用户 权威 值 不 同 ， 则 用 户 对 社交 网 络 中 其 他 用 户 的 影响 就 必然 不 同 。 本 小 节 主 要 介 
绍 微 博 在 线 社交 网 络 中 针对 股票 主题 的 用 户 权威 值 的 计算 方法 。 

Twitter 是 世界 范围 内 用 户 量 最 多 、 知 名 度 最 广 的 在 线 社交 网 络 ，Twitter 微 博 与 其 他 国内 外 的 
微 博 平台 相 比 ， 具 有 相同 的 基本 功能 ， 但 是 也 具有 其 独特 的 特征 ，Twitter 平台 的 每 一 条 微 博 称 为 
tweet。 这 里 针对 社交 网 络 的 所 有 研究 都 是 基于 Twitter 平台 微 博 的 。 

首先 ， 先 将 Twitter 中 的 微 博 分 为 三 类 : 原创 微 博 (Original Tweet，OT )、 对 话 微 博 
(Conversational Tweet，CT)、 转 发 微 博 (Re Tweet，RT)。 这 三 类 微 博 的 定义 及 区 别 如 下 : 


@ 原创 微 博 (OT) : 由 Twitter 用 户 发 表 的 非 对 话 微 博 和 转发 微 博 的 微 博 内 容 。 
日 对 话 微 博 (CT) : Twitter 用 户 直 接 对 另 一 个 用 户 发 表 的 微 博 ， 表 现在 微 博 内 容 中 就 是 微 
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博 最 前 添加 了 对 方 的 Twitter 用 户 名 (Qusername ) 。 用 户 发 表 对 话 微 博 可 以 通过 在 对 方 
微 博 下 单 击 “ 回 复 ”按钮 
e@ 转发 微 博 (RT) : Twitter 用 户 直接 复制 另 一 个 用 户 的 微 博 ， 发 表 在 自己 的 微 博 列表 中 ， 
从 而 在 用 户 自己 的 网 络 中 传播 。 


三 类 微 博 在 Twitter 平台 的 表现 形式 如 图 10.20 所 示 ， 以 Twitter 用 户 @TwitterOSS 为 例 : 


Jeremy Cole 
起 “On leaming InnoDB; A journey to the core” discusses my newest 
并 InnoDB efforts blog jcole u or 


NetDNA Developer 
四 Font Awesome 3.0 now on Wbootstrapcdn- bootstrapcdn 


fontawesome ht cc- @Twate {ortaweso_me 


n i ” ap 


Twitter Open Source 

congrats to our tnends @fortaweso_me on the Font Awesome 30 
release. an awesome font for Bitwbootstrap fortawesome grthub c 
Font-Awesome 


10.20 三 类 微 博 的 表现 形式 


其 次 ， 根 据 以 上 三 种 分 类 ， 提 出 Twitter 平台 中 用 户 所 发 历史 微 博 的 几 种 统计 值 ， 如 表 10.11 
所 示 。 











表 10.11 主题 用 户 的 统计 什 
原创 微 博 的 数量 
对 话 微 博 的 数量 
由 Twitter 用 户 自身 发 起 的 对 话 微 博 的 数量 


转发 其 他 用 户 微 博 的 数量 
被 其 他 用 户 转发 的 微 博 数量 
转发 自身 微 博 的 用 户 数量 





经 过 扫描 微 博 数据 库 中 的 用 户 历史 微 博 ， 可 以 统计 出 表 10.11 中 每 一 项 属性 。 然 后 ， 结 合 ; 
些 属性 并 针对 每 一 个 用 户 ， 创 建 了 微 博 用 户 的 5 种 特征 ， 分 别 从 不 同 角 度 描述 了 用 户 的 影响 力 。 


(1) 主题 参与 度 (Topic Involved) 
针对 每 一 个 指定 用 户 ， 从 微 博 数据 库 中 的 历史 微 博 中 分 析 该 用 户 关于 某 特定 主题 的 参与 程度 。 
#1topic 
主题 参与 度 (TD) = i 式 (10.5) 
式 〈10-5) 中 ，l#opic| 表 示 用 户 所 有 历史 微 博 中 存在 #topic 样式 的 哈 希 标 签 的 微 博 数量 。 简 单 地 
说 ， 哈 希 标 签 就 是 微 博 搜索 时 的 关键 字 ， 在 Twitter 中 的 书写 形式 是 将 关键 字 单 词 放 在 “#” 之 后 ， 因 
为 英文 单词 之 间 以 空格 分 隔 ，Twitter 中 “#” 后 面 只 能 跟 一 个 关键 词 。 主 题 参与 度 TI 表明 了 该 用 户 对 
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于 某 个 主题 的 参与 程度 ， 如 果 以 股票 为 例 ， 上 式 中 的 #topic 可 以 是 SAAPL，$ 标 签 是 Twitter 在 2012 
年 推出 的 新 标签 ， 用 于 关联 股票 代码 ， 此 时 TI 表明 了 该 用 户 投入 到 苹果 公司 股票 的 微 博 讨论 的 程度 。 


(2) 原创 度 (Original Strength) 
原创 度 表 明了 用 户 对 于 某 主题 独立 思考 的 程度 ， 该 特征 也 从 另 一 个 侧面 反映 了 用 户 在 某 主题 
上 的 权威 值 。 如 式 〈10-6) 所 示 。 


原创 度 (0S)= 一 2 


OT +RT 
在 某 主题 上 比较 有 权威 的 用 户 自 然 不 会 追随 其 他 用 户 的 言论 和 想法 ， 一 般 情况 下， 权威 用 户 
- 且 发 表 了 自己 的 独立 看 法 ， 立 即 会 极 大 影响 到 所 有 子 节点 用 户 ， 并 快速 地 在 自己 的 网 络 中 开始 
传播 。 所 以 ， 微 博 用 户 的 原创 度 表 明了 用 户 在 某 一 主题 上 的 影响 力 。 对 于 真正 具有 极 大 权威 的 用 
户 ， 其 原创 度 一 定 趋向 于 1。 


(3) 非 对 话 强度 (Non-Conversation Strength) 
非 对 话 强度 标示 了 一 个 用 户 真 正切 实 参与 到 主题 的 程度 ， 也 侧面 标示 了 用 户 偏离 主题 而 进入 
和 其 他 用 户 聊天 状态 的 程度 。 非 对 话 强度 可 以 用 公式 ON (OT1+CT1)〉 表 示 ， 但 是 非 对 话 强 度 的 
这 种 表示 明显 忽略 了 以 下 这 种 情形 : 某 些 用户 虽 然 发 出 对 话 类 微 博 ， 但 并 不 是 其 主动 发 出 ， 而 是 
因为 出 于 礼貌 而 对 其 他 用 户 的 微 博 进行 回复 。 在 这 种 情况 下 ， 该 用 户 的 实际 非 对 话 强度 应 该 会 H 
上 式 的 计算 结果 有 所 增 大 ， 因 此 对 上 面 的 非 对 话 强度 公式 进行 了 修正 ， 如 式 〈10-7) 所 示 。 


名 On CT -CT 
| Cs)=—— i +1 . 
非 对 话 强度 (CS) OT tOr + Cri 式 (10-7) 





式 (10-6) 








公式 修正 部 分 的 加 入 对 于 计算 个 人 用 户 的 权威 值 更 有 意义 ， 因 为 个 人 用 户 与 机 构 组 织 用 户 不 
同 ， 个 人 用 户 更 具有 社交 性 ， 更 容易 和 其 他 微 博 用 户 产生 沟通 交流 ， 因 此 上 式 对 于 个 人 用 户 的 权 
威 值 计算 更 具有 精确 性 。 
非 对 话 强度 CS 的 值 需 要 满足 CS<OT, /(OT, + CT ) ,将 该 约束 条 件 代 入 非 对 话 强度 公式 可 得 到 ， 
OT'*(CT +1) 
(OT +CT)*(OT +C7) 
根据 对 数据 库 中 微 博 数据 的 计算 ， 本 系统 认为 4 < 0.05 时 ， 非 对 话 强度 CS 的 计算 值 满足 前 
面 提 到 的 约束 条 件 。4 取 值 过 高 可 导致 个 人 用 户 以 及 活跃 用 户 的 权威 值 增 大 ， 反 之 则 会 导致 机 构 
组 织 用 户 的 权 值 过 大 。 
(4) 内 容 影响 力 
在 线 社交 网 络 中 用 户 的 微 博 内 容 影 响 力 通 过 该 用 户 被 网 络 中 其 他 用 户 转 发 的 微 博 数 量 来 计 
算 ， 有 具体 计算 公式 如 式 〈10-9) 所 示 : 
内 容 影响 力 (CI) = RD *log(RZ ) L003 
内 容 影响 力 表明 了 用 户 所 发 出 的 微 博 内 容 在 整个 社交 网 络 中 所 造成 的 影响 程度 。 由 于 内 容 影 
响 力 的 计算 通过 该 用 户 被 其 他 用 户 转发 的 微 博 数量 来 衡量 ， 因 此 必须 考虑 网 络 中 其 他 某 用 户 过 于 
信任 或 欣赏 该 用 户 ， 导 致 只 有 少数 几 个 人 转发 该 用 户 大 量 的 微 博 。 为 了 抑制 这 种 情况 对 内 容 影 响 


式 (10-8) 
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力 计算 公式 产生 的 副作用 ， 内 容 影 响 力 公式 引入 了 RT3。 

对 数 函 数 log(o) 的 定义 域 是 nr>0， 但 是 在 内 容 影 响 力 计 算 公式 中 ，RT3 可 能 等 于 0，RT3=0 表 
示 转 发 自己 微 博 的 用 户 数量 为 0。 当 这 种 情况 发 生 时 ， 该 用 户 被 转发 的 微 博 数量 肯定 也 为 0， 即 
RT3=0 ”RT2=0。 因 此 这 里 规定 ， 当 RT3=0 时 ，CEF0。 此 时 ， 内 容 影响 力 CI 的 计算 公式 覆盖 了 微 
博 社 交 网 络 中 的 所 有 情况 。 

(5) 内 容 相 似 度 

内 容 相似 度 反 映 了 用 户 最 近 发 布 的 微 博 内 容 与 之 前 发 布 的 微 博 内 容 的 相似 程度 。 两 个 单词 集 
合 5, 驴 的 相似 度 S (St S) 使 用 公式 10-10 计算 : 


s(s52)= LO! 式 (10-10) 
lsl 
值得 注意 的 是 ， 公 式 8 (51, S) 不 具有 对 称 性 ， 即 S (51, $2〉 关 S$ (SS )。 得 到 任意 两 个 单 
词 集合 的 相似 度 8 (Su 9 ) 后 ， 就 可 以 对 某 个 用 户 所 发 表 的 所 有 微 博 内 容 进 行 相似 度 计算 ， 计 算 
方式 是 对 该 用 户 历史 发 表 的 所 有 微 博 内 容 的 相似 度 取 平 均值 ， 公 式 如 式 〈10-11) 所 示 。 


gs = “Ee i se) 式 (10-11) 
mn (n=1) 

在 式 (10-11) 中 , 假设 用 户 在 历史 共 发 布 n 条 微 博 ， 并 且 n 条 微 博 是 按时 间 排 序 的 ， 即 Vi<j， 
都 有 time (Si <time (S1)。 

内 容 相似 度 SS 值 较 高 说 明 该 用 户 关 注 的 主题 比较 集中 ， 因 此 他 在 网 络 中 的 权威 值 就 比较 高 ， 
而 内 容 相 似 度 比较 低 的 用 户 ， 关 注 了 很 多 不 同 的 主题 ， 具 有 广泛 的 兴趣 ， 在 某 一 主题 上 的 权威 值 
会 有 所 降低 。 

综 上 所 述 ， 作 者 从 5 个 方面 介绍 了 可 标识 微 博 用 户 针对 某 主题 的 权威 值 的 特征 : 主题 参与 度 
TI、 原 创 度 0S、 非 对 话 强度 CS 、 内 容 影响 力 CI 以 及 内 容 相似 度 SS。 每 种 特征 都 可 以 从 数值 上 
体现 该 用 户 在 某 主题 上 的 权威 大 小 。 通 过 将 这 些 特征 值 求 和 ,就 可 以 对 Twitter 在 线 社 交 网 络 中 的 
用 户 按照 某 主题 进行 权威 值 排序 ， 如 图 10.21 所 示 。 














主题 参与 度 
‘TD 


非 对 话 强 度 
《CS) 





图 10.21 主题 用 户 权威 值 的 计算 
根据 前 文 介绍 ， 计 算 用 户 权威 值 时 ， 需 要 统计 出 三 类 微 博 的 数量 ， 可 以 通过 遍历 用 户 发 出 的 


406 


第 10 章 ”基于 微 博 的 股票 市 场 预测 系统 





历史 微 博 进行 数量 统计 。 原 创 微 博 OT!、 对 话 微 博 CT 与 O7?、 转 发 微 博 R7 通过 10.4.1 节 介 绍 
的 内 容 在 文本 特征 上 加 以 区 分 和 统计 ， 而 转发 微 博 R7 和 R73 的 计算 则 需要 对 微 博 具 体 的 属性 进 
行 分 析 Twitter 平台 每 条 微 博 均 有 转发 属性 是 否 被 转发 转发 用 户 数 。 例 如 Twitter 用 户 twitterapi 
在 2012 年 6 月 6 日 发 布 的 一 条 微 博 “Along with our new #Twitterbird, we've also updated our is play 
Guidelines: https://t.co/Ed4omjYsJC”， 在 其 XML 格式 中 有 以 下 几 种 属性 : 


{f "text" : "Along with our new #Twitterbird, we've also updated our Display Guidelines : 
https://t.co/Ed4omjYsJC", 

“retweeted”: true 

“retweet count”: 66 

“screen name”: “twitterapi”} 


通过 retweeted 属性 可 在 遍历 时 统计 被 其 他 用 户 转发 的 微 博 数量 R7> 通过 retweet_count 属性 
可 以 统计 总 共 转 发 自己 微 博 的 用 户 数量 R73。 

根据 用 户 三 类 微 博 的 各 个 属性 值 ， 很 容易 通过 公式 〈10-5) ~ 公式 〈10-11) 计算 微 博 用 户 的 
主题 参与 度 、 原 创 度 、 非 对 话 强度 、 内 容 影响 力 以 及 内 容 相 似 度 的 数值 。 值 得 注意 的 是 ， 在 用 户 
主题 参与 度 计 算 中 ， 如 果 计 算 用 户 对 于 苹果 股票 的 参与 度 ， 就 需要 提取 历史 微 博 中 所 有 提 及 
$AAPL 的 微 博 数量 作为 ktopic| 的 值 。 

在 计算 用 户 微 博 内 容 相似 度 时 ， 首 先 要 去 除 文 本 噪声 ， 即 从 用 户 微 博 内 容 中 去 除 标点 符号 、 
停止 词 等 内 容 ， 将 每 条 微 博 内 容 转变 为 单词 集合 ， 这 样 处 理 可 使 内 容 相似 度 的 计算 更 具 鲁 棒 性 。 

- 般 的 微 博 在 线 社交 网 络 对 于 微 博 内 容 都 有 字数 限制 ，Twitter 限制 每 条 微 博 内 容 不 得 超过 140 个 

英文 字符 ， 微 博 的 字数 限制 决定 了 文本 去 噪 后 的 每 个 单词 集合 不 可 能 会 无 限 膨胀 ， 内 容 相似 度 的 
计算 变 得 简单 。 

通过 公式 W(u) =TI+OS+ CS+CI+SS 对 上 文中 计算 出 的 5 种 特征 值 进行 加 和 , 便 可 求 出 Twitter 
平台 上 每 个 用 户 的 权威 值 W(u)。 


10.4.3 ”用 户 行为 分 析 模 块 详细 设计 


本 小 节 提出 用 户 行为 影响 概率 模型 的 模型 框架 一 一 一 般 阔 值 模型 。 微 博 中 用 户 被 信息 影响 或 
者 称 该 用 户 被 激活 ， 就 会 成 为 传播 节点 ， 将 该 行为 在 社交 网 络 中 继续 传播 下 去 。 某 一 时 刻 未 被 影 
响 的 用 户 节点 u 周围 已 经 有 若干 父 传播 节点 ， 它 们 形成 对 用 户 u 的 影响 用 户 集合 S$， 集合 中 任意 
用 户 节点 vES 都 是 在 用 户 u 关注 用 户 v 之 后 被 激活 的 。 影 响 用 户 集合 S 中 的 任意 用 户 v 均 会 以 一 
定 的 概率 激活 用 户 u， 从 而 集合 S 中 的 所 有 用 户 会 形成 影响 联合 概率 P。(S)》 而 对 用 户 u 产生 影 
响 ， 用 户 u 被 影响 后 就 会 发 出 同样 的 行为 。 

本 小 结 主要 通过 计算 影响 用 户 集合 S 对 用 户 u 的 影响 联合 概率 ， 对 单个 用 户 u 的 发 出 行为 做 
出 预测 。 一 般 阔 值 模型 中 的 阔 值 @ 指 用 户 u 的 受 影响 阔 值 ， 当 屎 (3) 过 & 时 ， 可 以 预测 用 户 将 
会 被 父 节点 影响 ， 从 而 成 为 传播 节点 ， 获 得 传染 性 ， 可 以 将 行为 继续 传播 到 子 节点 中 未 被 影响 的 
用 户 节点 。 
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根据 微 博 中 用 户 间 的 实际 影响 关系 ， 显 然 可 知 ， 影 响 联合 概率 函数 p(s) 是 单调 的 ， 如 果 
Ss eT， 一 定 有 pp(S) 二 p(T)。 而且 用 户 u 的 所 有 父 节 点 之 间 具有 比较 弱 的 联系 ， 父 节点 对 用 户 4 
的 影响 概率 可 以 看 作 是 独立 的 。 
因此 ， 影 响 联合 概率 可 以 被 定义 为 : 


P(S)=1-I..(-P,) 式 (10-12) 





公式 (10-12) 中 ，&。 指 用 户 v 对 用 户 u 的 行为 影响 概率 ， 也 就 是 行为 从 用 户 v 传播 到 用 户 
u 的 概率 。 行 为 传播 有 延迟 时 间 ， 用 户 v 发 出 行为 a 后 ， 用 户 u 在 4 的 延迟 时 间 后 被 影响 而 发 出 
同样 的 a 行为 。4 是 通过 历史 微 博 记录 统计 出 的 行为 从 用 户 v 传播 到 用 户 u 的 平均 延迟 时 间 。 用 
户 v 和 用 户 u 之 间 行 为 传播 平均 延迟 时 间 定 义 如 公式 (10-13〉 所 示 : 


1 Oo) 式 (10-13) 
4 


公式 10-13 中 ，t,(a) 表示 用 户 u 发 出 行为 a 的 时 间 ，A 表示 微 博 中 的 历史 行为 集合 。 

前 文中 已 假设 任意 用 户 的 所 有 父 节 点 对 该 用 户 的 影响 都 是 独立 的 ， 父 节点 对 该 用 户 的 影响 没 
有 依赖 关系 ， 因 此 ， 如 果 能 计算 任 一 父 节点 对 该 用 户 的 影响 概率 ， 就 可 以 通过 式 (10-12) 计算 该 
用 户 受 到 所 有 父 节 点 的 行为 影响 联合 概率 ， 即 该 用 户 发 出 同样 行为 的 概率 。 本 节 提 出 的 Jaccard 
系数 连续 时 间 模 型 不 同 于 其 他 文献 中 的 静态 模型 ,静态 模型 里 假设 用 户 之 间 的 影响 概率 是 静态 的 ， 
不 随时 间 推 移 而 变化 ， 而 根据 真实 社交 网 络 的 动态 性 ， 用 户 之 间 的 影响 概率 应 该 是 一 个 连续 时 间 
函数 .下 面 先 介绍 基于 微 博 的 行为 影响 概率 Jaccard 系数 模型 , 再 引入 用 户 间 影响 概率 的 时 间 特 性 ， 
提出 Jaccard 系数 连续 时 间 模型 。 


1. Jaccard 系数 模型 


Jaccard 系数 ， 又 叫做 Jaccard 相似 性 系数 ， 用 来 比较 样本 集中 的 相似 性 和 分 散 性 的 一 个 概率 ， 
它 只 关心 个 体 间 共 同 具 有 的 特征 是 否 一 致 。Jaccard 系数 等 于 样本 集 交 集 与 样本 集 并 集 的 比值 ， 简 
单 而 言 ， 集 合 A 和 集合 B 的 Jaccard 系数 等 于 集合 A 和 集合 B 中 共同 拥有 的 元 素数 与 集合 A、B 
总 共 拥有 的 元 素数 的 比例 ， 公 式 如 式 〈10-14) 所 示 : 


= s05 
Jaccard(A,B) = 2 式 (10-14) 


很 显然 ，Jaccard 系数 值 区 间 为 [0,1]。 由 于 Jaccard 系数 经 常用 于 衡量 两 个 样本 集 的 相似 度 ， 
因此 就 采用 Jaccard 系数 来 评估 两 个 用 户 之 间 行 为 的 相似 度 , 相似 度 高 表示 用 户 v 对 用 户 _u 的 行为 
影响 概率 比较 大 。 针 对 Jaccard 系数 一 般 公 式 ， 这 里 提出 的 用 户 间 的 行为 影响 概率 公式 如 式 10-15 
所 示 。 


有 = Sk 式 (10-15) 
Vu Arlu 


然而 ， 值 得 注意 的 是 ， 微 博 中 的 某 个 用 户 u 被 影响 而 发 出 某 个 行为 ， 这 个 行为 可 能 是 被 之 前 
已 发 出 过 相同 行为 的 所 有 父 节点 共同 影响 而 激发 的 。 因 此 ， 用 户 u 的 这 些 父 节点 中 的 每 个 节点 都 
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只 贡献 了 联合 影响 中 的 一 部 分 。 假 设 用户 在 时 间 所 全 时 发 出 行为 a，S 是 影响 用 户 发 出 行为 a 
的 所 有 父 节点 集合 , 从 而 有 YS 5S， 《wu) 五 所 Ga) 三 所 人 a)。 在 部 分 计 分 Jaccard 系数 模型 中 ， 
集合 S 中 的 每 个 父 节点 根据 权威 值 的 比重 计算 使 用 户 u 发 出 行为 a 的 功劳 ， 这 也 是 计算 主题 用 户 
权威 值 的 意义 。 一 般 的 ， 对 于 行为 a， 用 户 u 的 每 个 已 发 出 行为 a 的 父 节点 的 部 分 计 分 定义 为 : 
credit,, (a) = 式 (10-16) 





Li 
Erax WW ‘ei 





式 (10-16) 中 ，W (v) 表示 用 户 v 的 权威 值 ， 计 算 过 程 已 在 10.4.2 节 中 详细 介绍 。 集 合 X 
是 用 户 u 的 父 节 点 中 ， 所 有 已 发 出 行为 a 的 节点 集合 ，X = {l(a) < (0@)}。 

因此 , 在 部 分 计 分 Jaccard 系数 模型 中 ,用 户 v 对 用 户 u 的 行为 影响 概率 可 以 使 用 公式 (10-17) 
计算 : 
La credityu(a) 


Avlu 
式 (10-17) 中 ，A 是 微 博 社交 网 络 的 历史 微 博 集合 。 
2. Jaccard 系数 连续 时 间 模 型 
真实 社交 网 络 中 ， 两 用 户 之 间 的 影响 概率 并 不 是 与 时 间 无 关 的 常数 。 很 明显 ， 当 用 户 u 发 现 他 的 
某 个 父 节点 刚刚 发 表 了 某 个 行为 a， 用户 u 必定 会 有 很 强烈 的 兴趣 和 意愿 去 了 解 这 个 行为 ， 并 可 能 会 
发 出 同样 的 行为 。 但 是 随 着 用 户 u 对 父 节 点 发 出 行为 a 的 发 现 越 来 越 晚 ， 用 户 u 的 这 种 意愿 就 会 大 幅 
度 衰减 。 这 里 对 Twitter 历史 微 博 进行 统计 ， 相 同行 为 数 随时 间 间 隔 变化 如 图 10.22 所 示 。 


Pvwu = 


式 (10-17) 


单位 : 千 


10 20 30 40 50 60 
单位 :分 
图 10.22 Twitter 中 不 同时 间 间 隔 发 出 的 相同 行为 数 


由 图 10.22 可 以 看 出 ， 用 户 受 影响 的 概率 是 随时 间 变 化 指数 衰减 的 ， 因 此 ， 用 户 v 对 于 用 户 
u 的 影响 概率 其 实 是 关于 时 间 的 函数 ， 在 Jaccard 系数 连续 时 间 模型 里 ， 用 户 v 对 于 用 户 u 的 行为 
影响 概率 应 该 为 ps。， 其 定义 公式 如 式 (10-18)。 
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实战 大 数据 
pi = pd,e- Crtp) /tp 式 (10-18) 


2 是 用 户 v 对 用 户 u 的 影响 概率 的 最 大 值 ， 在 这 个 指数 衰减 的 模型 里 ， 将 用 户 v 发 表 行为 a 
的 时 刻 刀 代入 上 式 ， 用 户 v 对 用 户 u 的 影响 概率 达到 最 大 值 B-， 最 大 影响 概率 zs 即 上 文 提 到 的 
Bsw 。 公 式 中 的 如 a 是 用 户 v 对 于 用 户 u 影响 的 平均 延迟 时 间 。 

由 上 可 得 ， 在 Jaccard 系数 连续 时 间 模 型 中 ， 任 意 两 个 用 户 在 任意 时 刻 的 影响 概率 pz。 可 以 
计算 得 到 ， 因 此 ， 用 户 所 受到 所 有 父 节点 的 影响 联合 概率 就 可 以 通过 公式 (10-19) 计算 。 





(5)= 1-T,es(1— Ws) 式 (10-19) 


在 这 个 连续 时 间 模 型 中 ， 用 户 u 受到 的 影响 联合 概率 是 与 时 间 有 关 的 函数 ， 它 随时 间 的 推移 
而 变化 。 当 用 户 u 某 个 父 节点 在 某 一 时 刻 被 激活 从 而 对 用 户 u 具有 影响 力 时 ， 用 户 u 受到 的 影响 
联合 概率 将 会 急剧 变 大 ， 函 数 曲线 将 会 迅速 上 升 。 因 此 ， 函 数 羽 (5) 是 一 个 分 段 连续 函数 ， 这 也 说 
明 该 函数 的 计算 和 更 新 是 比较 复杂 的 ， 需 要 有 一 个 类 似 的 更 为 简单 并 能 保持 精确 性 的 改进 模型 。 

本 系统 提出 的 用 户 影响 联合 概率 计算 所 需 的 训练 集 是 Twitter 中 用 户 发 出 的 所 有 股票 微 博信 
息 ， 并 不 考虑 股票 无 关 言 论 。 训 练 集 的 选 定 使 用 户 所 受到 的 影响 联合 概率 的 计算 更 加 精确 ， 能 够 
更 准确 地 预测 股票 价格 涨 跌 趋 势 。 

计算 所 需要 的 训练 集 全 部 通过 Twitter API 采集 , 由 于 Twitter 具有 海量 的 用 户 , 每 天 都 会 产生 
数 以 亿 计 的 微 博 ， 所 以 这 里 提出 的 计算 方法 必须 能 够 面 对 海 量 数据 处 理 带 来 的 挑战 ， 尽 可 能 地 提 
高 时 间 效 率 ， 因 此 它 的 计算 过 程 必须 尽 可 能 减少 扫描 训练 集 次 数 。 

用 户 影响 联合 概率 计算 的 输入 由 社交 网 络 有 向 图 G= (VE,T) 以 及 用 户 行为 历史 记录 组 成 ， 
而 用 户 行为 历史 中 的 每 一 条 记录 则 是 一 个 三 元 组 (wayh)， 表 示 用 户 u 在 时 刻 发 出 了 行为 a。 根 
据 上 文 的 实现 目标 ， 本 系统 要 求 输入 训练 集 必须 满足 按 行 为 id 排序 ， 具 有 形 同 id 的 行为 则 按时 
间 先 后 排序 。 由 于 输入 训练 集 以 数据 库 方式 保存 ， 在 判断 行为 相似 度 之 后 ， 数 据 库 提供 的 排序 功 
能 很 容易 满足 排序 需求 。 

针对 上 文 提出 的 Jaccard 系数 连续 时 间 模 型 ,只 需要 对 训练 集 作 一 次 遍历 即 可 。 算法 中 使 用 表 
current table 保存 关于 行为 a 的 所 有 三 元 组 (ua, hy， 并 且 三 元 组 在 表 中 是 以 发 出 时 间 t 排 序 的 。 
当 从 训练 集中 读 出 一 个 元 组 ua 如 ) 时 ， 表 明 用 户 u 在 时刻 发 出 了 行为 a， 这 时 可 以 从 行为 a 
的 current table 中 查询 u 的 所 有 父 节 点 ， 这 些 父 节点 发 出 行为 a 的 时 间 先 于 用 户 u， 换 名 话说， 正 
因为 这 些 父 节点 发 出 行为 a, 才 影 响 用 户 u 成 为 行为 a 的 传播 节点 。 巨 " 表示 在 时 刻 微 博 有 向 图 
网 络 中 所 有 用 户 关系 形成 的 边 集 集合 ，E” 的 引入 是 为 了 保证 当 判 断 用 户 v 将 行为 传播 到 用 户 u 
时 ， 节点 v 和 节点 u 一 定 是 连通 的 。 五 " 集合 随 着 微 博 用 户 关系 链 的 连接 和 断 开 而 动态 更 新 。 

下 面 先 介绍 Jaccard 系数 连续 时 间 模 型 的 实现 算法 。 用 户 影响 联合 概率 的 计算 重点 在 于 先 计 
算 微 博 中 两 用 户 间 的 行为 影响 概率 ， 得 到 用 户 间 行 为 影响 概率 后 就 可 以 通过 式 10-19 直接 计算 用 
户 的 影响 联合 概率 。 具 体 的 计算 用 户 间 行 为 影响 概率 的 算法 伪 代 码 如 下 所 示 : 


1: for each acitona do 
2: current tabje = 
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3 for sach vaer tuple <uat > do 
4 jncrement 4 

5 parents = 久 

6: for each user vy: (¥,a.t,) ecurrent table && (vu) ee Edo 
和 lift > t, then 

8 increment ds 

9 update T, 

10: Insert Vin parents 

11: increment Avax 

12: for each parent y & parents do 
138 update creditvu 


14: add (ua, tu) jn current talbe 


算法 1~6 行 比较 简单 ， 算 法 第 7 行 忽略 两 个 用 户 在 同一 时 刻 发 表 了 行为 a 的 情况 ， 当 这 种 情 
况 发 生 时 ， 信 息 在 两 用 户 之 间 是 否 发 生 了 传播 是 不 确定 的 ， 因 此 第 7 行使 用 > 三 作 限 制 。 当 分 
析出 所 有 发 出 行为 a 的 节点 时 〈 表 current_table 中 的 节点 )， 算 法 8~11 行 对 用 户 u 相关 的 所 有 参 
数 均 进 行 更 新 。 

算法 中 最 重要 的 是 creditss 的 更 新 ， 它 是 计算 用 户 之 间 行 为 影响 概率 的 关键 。 首 先 要 得 到 影 
响 用 户 成 为 传播 节点 的 所 有 父 节点 ， 算 法 第 10 行将 这 些 节点 插入 到 parents 集合 中 。 算 法 第 12 
行 对 parents 集合 进行 遍历 , 通过 上 文中 的 评分 公式 (10-16) 对 creGttsw 进行 更 新 (算法 第 13 行 )。 
最 后 ， 算 法 第 14 行将 关于 行为 a 的 元 组 〈ua,ta) 添加 到 关于 行为 a 的 current_table 表 中 。 

得 到 ereettss 值 后 ， 可 以 根据 公式 (10-17) 计算 用 户 v 和 用 户 u 之 间 的 行为 影响 概率 ， 进 而 
可 以 计算 出 用 户 u 受 到 的 影响 联合 概率 。 通过 前 面 的 算法 介绍 可 以 看 出 , 对 于 Jaccard 系数 连续 时 
间 模 型 ， 用 户 的 影响 联合 概率 的 计算 只 需要 对 训练 集 进行 一 次 遍历 。 


3. Jaccard 系数 离散 时 间 模 型 


Twitter 作为 全 球 最 大 的 在 线 社交 网 络 ， 每 天 贡献 的 数据 量 是 十 分 庞大 的 。 北 京 时 间 2012 年 12 
月 19 日 凌晨 , Twitter 宣布 其 月 活跃 用 户 已 破 2 亿 , 较 同年 3 月 份 的 1.4 亿 活跃 用 户 相 比 增加 了 6000 
万 ，9 个 月 增长 了 42%， 每 天 发 布 信息 早已 达到 3.4 亿 条 。 改 进 模型 需要 面 对 如 此 庞大 的 海量 数据 
处 理 ， 因 此 模型 必须 要 能 够 对 每 个 用 户 受到 的 影响 联合 概率 进行 快速 的 计算 。 于 是 ， 当 用 户 u 的 某 
个 父 节点 w 被 激活 而 对 用 户 u 产 生 新 的 影响 时 , 用 户 u 受 到 的 影响 联合 概率 需要 被 快速 计算 。 为 了 
做 到 快速 的 计算 ， 在 用 户 w 被 激活 后 ， 用 户 u 的 影响 联合 概率 您 wfwt7 需要 能 够 被 增 量 式 更 新 ， 
而 不 需要 再 次 使 用 公式 〈10-12) 重新 访问 所 有 已 激活 的 父 节点 对 用 户 u 的 影响 概率 。 

上 面 提出 的 Jaccard 系数 连续 时 间 模 型 中 ， 由 公式 〈10-19) 可 以 明显 看 出 ， 该 模型 不 满足 增 
量 式 更 新 特性 。 一 旦 用 户 u 有 一 个 父 节点 被 激活 ， 为 计算 用 户 u 受到 的 影响 联合 概率 ， 需 要 重新 
计算 pt (8)。 如 果 用 户 u 的 父 节 点 集合 大 小 为 4， 则 用 户 u 的 影响 联合 概率 函数 会 有 局 部 极 大 值 ， 
在 处 理 海量 微 博 数据 时 将 会 产生 非常 巨大 的 时 间 开 销 。 

因此 ， 在 本 小 节 提 出 一 个 与 Jaccard 系数 连续 时 间 模型 接近 的 新 的 模型 一 一 Jaccard 系数 离散 
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时 间 模 型 ， 它 满足 增 量 式 更 新 ， 而 且 也 符合 微 博 中 两 用 户 之 间 的 影响 概率 随时 间 推移 而 衰减 的 特 
性 。 在 离散 时 间 模型 中 , 假设 用 户 v 对 用 户 _u 的 影响 概率 Ps ,在 时 间 间隔 为 t 内 保持 为 常数 pv， 
当 超 出 这 个 时 间 间隔 后 ， 影 响 概 率 ps ,直接 降 为 0。 也 就 是 说 ， 用 户 v 对 于 用 户 u 的 影响 概率 在 
[evss+sa] 区 间 内 保持 为 常数 p8。。 离 散 时 间 模型 中 的 这 个 设 定 将 会 使 该 模型 满足 增 量 式 更 新 特 
性 ， 从 而 可 以 更 好 地 应 用 于 海量 数据 处 理 之 上 。 

当 用 户 _ 的 某 个 父 节点 w 突然 被 激活 而 对 用 户 u 具有 行为 影响 时 ,用户 受到 的 影响 联合 概 
率 puGufej) 可 以 通过 公式 〈10-20) 进行 增 量 式 更 新 。 


Ps(SU{w)=1-(-p,)* [0-2p,,) 


=1-—(1—p,,)1— 7p,(s) 式 (10-20) 
= Pp,(s)+(1— p(s)* pr 


但 是 由 于 Jaccard 系数 离散 时 间 模 型 的 特性 用 户 u 的 某 个 父 节 点 w 在 滑 过 长 为 1,, 的 时 间 窗 
后 ， 他 对 用 户 u 的 影响 概率 降 为 0， 这 时 用 户 u 受到 的 影响 联合 概率 p, (8/ fw) 也 可 以 进行 增 量 
式 的 更 新 ， 如 公式 〈10-21) 所 示 : 

1 eR 
a 
fo (py,) 
=1-1-B() 式 (10221) 
l= ps 
PCS)— Pus 
l= py 

Jaccard 系数 离散 时 间 模 型 相对 于 连续 时 间 模型 ， 在 计算 任意 两 用 户 之 间 的 影响 概率 时 ， 用 户 
v 对 用 户 的 计算 公式 (10-16) 中 的 X 集 合 将 更 改 为 &= 包 0< (Q@) 一 (a) < tasj。Jaccard 系数 离 
散 时 间 模 型 得 到 的 影响 联合 概率 与 上 述 的 Jaccard 系数 连续 时 间 模 型 十 分 接近 , 并 且 与 连续 时 间 模 
型 相 比 ， 离 散 时 间 模 型 中 的 影响 联合 概率 可 以 被 增 量 式 更 新 ， 因 此 在 对 微 博 等 在 线 社交 网 络 中 的 
海量 数据 处 理 时 ， 更 具备 高 效 性 。 

Jaccard 系数 离散 时 间 模 型 假设 了 用 户 之 间 的 行为 影响 概率 是 非 静态 的 , 它 在 影响 平均 延迟 时 
间 刀 内 保持 常量 p8。， 而 超出 这 个 时 间 间 隔 后 ， 用 户 v 对 用 户 u 的 影响 概率 迅速 降 为 0。 所 以 用 
户 的 行为 影响 概率 计算 过 程 中 ， 还 需要 对 ,加 以 考虑 。 从 前 面 算法 可 以 看 出 ，t, ,的 计算 需要 对 
训练 集 先 作 一 次 遍历 ， 所 以 对 于 Jaccard 系数 离散 时 间 模 型 ,影响 联合 概率 的 计算 总 共 需 要 对 训练 
集 做 两 次 遍历 。 具 体 算法 的 伪 代 码 如 下 所 示 : 


1: for each acitona do 

2: current table = 0 

3: for sach usertuple < ua,t, > do 
4: Parenis= 8 
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5 for each uaerv: 《atr》Ecurrent table && (ru Erdo 
6 1f0 xt — it, <Eh,r 二 em 

3 jncrement ds 

8 lnsert v in parents 

和 for each parent ¥ & Parents do 

10: update creditms 

11: add fu,a,tu) jn current talbe 


离散 时 间 模 型 的 算法 伪 代 码 与 连续 时 间 模 型 的 算法 基本 相同 ， 仅 仅 在 第 6 行 中 有 较 大 差别 。 
算法 第 6 行 中 需要 保证 用 户 v 和 用 户 u 发 出 相同 行为 a 的 时 间 间 隔 不 能 超过 t,,,， 这 个 限制 条 件 


是 Jaccard 系数 离散 时 间 模型 的 关键 。 此 算法 得 到 的 creditis 值 ， 根 据 公式 10-17) 计算 用 户 v 
和 用 户 u 之 间 的 行为 影响 概率 ， 然 后 根据 公式 《10-19) 计算 用 户 u 受到 的 影响 联合 概率 。 


10.4.4 ”预测 股票 价格 涨 跌 模块 详细 设计 
该 模块 主要 分 为 两 部 分 : 微 博 情感 信息 传播 预测 模型 的 设计 和 股票 价格 涨 跌 趋势 预测 的 设计 。 
1. 微 博 情感 信息 传播 预测 模型 


社交 网 络 的 信息 传播 模型 一 定 具 有 两 个 要 点 : 传播 规则 和 网 络 拓扑 结构 。 传 播 规则 指 社交 网 
络 中 的 用 户 如 何 接受 消息 并 把 消息 传播 到 其 他 用 户 , 而 社交 网 络 中 的 信息 传播 一 定 有 其 传播 路 径 ， 
微 博 在 线 社交 网 络 的 信息 传播 路 径 就 是 微 博 中 好 友 关 系 形成 的 有 向 图 。 

微 博 网 络 中 ， 某 用 户 发 表 一 条 有 关 股票 的 微 博 后 ， 该 用 户 的 所 有 粉丝 会 通过 各 种 终端 设备 获 
得 这 一 消息 。 感 兴趣 的 粉丝 会 尽快 对 这 一 消息 进行 评论 或 转发 ， 从 而 将 该 消息 分 享 给 更 多 的 用 户 。 
微 博 中 的 信息 在 传播 时 ， 不 存在 明显 的 限制 或 围栏 ， 信 息 传播 的 深度 和 广度 并 不 仅仅 取决 于 微 博 
用 户 的 权威 值 、 信 息 的 影响 力 ， 还 取决 于 粉丝 、 粉 丝 的 粉丝 等 人 对 信息 传播 的 贡献 。 粉 丝 的 数量 
和 质量 ， 他 们 对 信息 的 传播 能 力 和 意愿 也 是 决定 信息 传播 程度 的 重要 因素 。 

由 于 用 户 发 出 的 有 关 股 票 的 微 博 是 有 一 定 情感 的 ， 例 如 看 涨 或 者 看 跌 某 支 股票 ， 那 么 这 种 情 
感 会 在 用 户 网 络 中 不 断 传播 下 去 ， 在 微 博 的 情感 传播 路 径 中 ， 接 收 到 信息 的 用 户 受到 了 信息 的 影 
响 ， 成 为 传播 用 户 ， 然 后 将 接收 的 信息 情感 传播 到 所 有 的 子 节点 。 而 接收 到 信息 的 节点 没有 成 为 
传播 节点 的 原因 是 父 节 点 的 信息 对 该 节点 的 影响 并 不 足以 改变 他 的 意愿 和 行为 。 传 播 节点 可 能 是 
传播 路 径 的 中 间 节 点 ， 也 可 能 是 传播 路 径 的 终止 节点 。 传 播 节 点 成 为 传播 路 径 的 终止 节点 是 因为 
该 节点 对 所 有 子 节点 的 影响 都 没有 成 功 ， 也 就 是 所 有 子 节点 虽然 接收 到 了 来 自 于 他 的 传播 信息 ， 
但 是 均 没 有 改变 自己 的 状态 ， 因 此 终止 节点 不 会 影响 下 一 时 刻 的 传播 。 

社交 网 络 中 信息 传播 的 网 络 拓扑 结构 用 有 向 图 G@ = 《YW,E,T》 表 示 , V 表示 社交 网 络 中 的 用 户 
集合 ，E 表示 社交 网 络 中 用 户 之 间 的 关注 关系 ， 了 标明 了 有 向 图 中 的 每 条 边 的 建立 时 间 。 社 交 网 
络 中 的 信息 就 在 有 向 图 G 的 边 集 E 上 传播 。 

图 10.23 为 Twitter 社交 网 络 中 信息 传播 预测 模型 结构 图 ， 在 初始 时 刻 t， 所 有 已 发 出 行为 a 


413 


实战 大 数据 


的 用 户 用 黑色 节点 表示 ， 而 没有 发 出 行为 a 的 用 户 用 白色 节点 表示 ， 节 点 间 的 连 线 表 示 用 户 间 的 
关注 关系 。 当 关系 网 络 图 中 有 黑色 节点 出 现时 ， 黑 色 节点 就 对 邻接 的 白色 子 节点 产生 影响 。 白 色 
子 节点 根据 自身 所 受到 的 影响 联合 概率 决定 发 出 或 者 不 发 出 行为 a， 而 且 发 出 行为 a 的 时 间 也 是 
可 以 预测 的 ， 白 色 节 点 成 为 传播 节点 的 时 间 是 一 个 区 间 [b，e]。 


10.23 ”信息 传播 预测 结构 图 


当 微 博 中 用 户 u 的 某 父 节点 v 在 t 时 刻 被 激活 发 出 行为 a 后， 用户 u 受到 行为 a 的 影响 联合 
概率 函数 曲线 会 快速 上 升 ， 如 图 10.22 所 示 。 从 图 10.22 中 可 以 直观 看 出 , 用 户 u 受 到 的 影响 联合 
概率 函数 是 一 个 分 段 非 连 续 函 数 。 当 影响 联合 概率 p(s) > 6, 时， 用 户 u 就 有 可 能 被 激活 而 发 出 相 
同行 为 a。 这 里 就 选取 联合 影响 概率 函数 值 大 于 的 第 一 个 局 部 极 大 值 对 应 的 时 间 t，, 作为 预测 用 
户 u 成 为 传播 节点 的 时 间 区 间 的 左 值 。 当 到 达 左 值 时 刻 时 ， 用 户 u 就 进入 易 感染 状态 ， 并 随时 可 
能 被 激活 ， 成 为 传播 节点 。 

本 系统 采用 微 博 中 用 户 v 对 用 户 u 影响 的 半衰期 作为 预测 用 户 u 成 为 传播 节点 的 时 间 区 间 的 
右 值 。 由 10.4.3 节 中 的 介绍 可 知 ， 用 户 v 对 于 用 户 u 影响 的 平均 延迟 时 间 为 上 ， 在 用 户 v 对 用 
户 u 影 响 的 半衰期 内 , 更 精确 来 说 就 是 4, *In(2) 时 间 内 ,用 户 v 发 出 行为 平均 有 50% 的 概率 会 传 
播 到 用 户 u， 因 此 ， 本 文 就 采用 影响 延迟 的 半衰期 1, *In(2) 作为 预测 用 户 u 成 为 传播 节点 的 时 间 
区 间 的 右 值 。 

依 前 所 述 ， 用 户 u 受到 影响 成 为 传播 节点 的 时 间 是 一 个 区 间 [b,e]， 区 间 的 左 值 是 用 户 u 的 影 
响 联合 概率 达到 0, 的 时 刻 ， 区 间 的 右 值 是 最 近 被 激活 的 父 节点 对 自身 影响 延迟 的 半衰期 。 但 是 ， 
用 户 u 成 为 传播 节点 的 时 间 区 间 在 信息 传播 模型 中 处 理 是 比较 复杂 的 ， 因 此 对 用 户 u 成 为 传播 节 
点 的 时 间 需 要 做 精确 的 预测 。 在 社交 网 络 的 病毒 营销 应 用 中 ， 因 为 用 户 u 总 是 会 提前 发 出 行为 a， 
所 以 用 户 u 成 为 传播 节点 的 时 间 左 值 t 是 不 确定 的 。 用 户 u 昌 然 提前 发 出 行为 a, 但 是 对 于 信息 传 
播 模型 没有 影响 ， 所 以 这 里 不 采用 时 间 区 间 的 左 值 ， 而 采用 时 间 区 间 的 右 值 作为 预测 用 户 成 为 
传播 节点 的 精确 时 间 。 

在 情感 信息 传播 预测 模型 中 ， 微 博信 息 基 于 BFS 的 传播 预测 步骤 为 : 


二 Foi 从 图 10.23 中 的 黑色 节点 开始 ， 遍 历 所 有 黑色 节点 ， 逐 一 加 入 到 队列 中 ; 
F302 取出 队列 头 节点 ( 黑色 节点 )， 访 问 黑色 节点 的 各 个 邻接 白色 子 节点 ， 对 邻接 白色 子 节 
点 做 出 行为 a 的 发 出 预测 ， 如 10.4.3 节 中 介绍 的 。 预 测 会 发 出 行为 a 的 白色 节点 转 为 黑 
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色 节 点 ， 预 测 发 出 时 间 小 于 指定 时 间 ， 则 加 入 到 队列 尾 中 。 
重复 步骤 (2 )， 直 到 黑色 节点 队列 为 空 。 


在 初始 时 刻 t， 所 有 已 经 发 出 行为 a 的 用 户 用 集合 B' 表示。 未 发 出 行为 a 的 用 户 会 根据 自身 受到 
的 影响 联合 概率 决定 自己 的 行为 发 出 与 否 。 当 用 户 受到 的 影响 联合 概率 大 于 该 用 户 成 为 传播 节点 
的 阔 值 时 ， 用 户 就 会 发 出 行为 a， 该 用 户 被 添加 到 集合 B™ 中 。 反 之 ， 用 户 的 行为 状态 不 会 发 生 
变化 ， 行 为 a 的 用 户 集合 B5 也 就 不 会 发 生变 化 。 

对 于 行为 a， 父 节点 对 用 户 u 的 影响 联合 概率 用 p, (s) 表示 ， 则 信息 传播 模型 是 一 个 四 元 组 
(G, p,(5),9,,B'),。 其 中 G 就 是 信息 在 微 博 中 传播 的 有 向 图 G =(V,E,J)，B' 的 定义 如 下 : 

B"= {1,v…} ， 初 始 时 刻 节点 集合 V 中 发 出 行为 a 的 节点 ; 

B'=B"'US',t 宇 1 

其 中 , s* = {uweV, (wu) eBvepB ,uss!l,p,(s) » 0,}。 

情感 信息 传播 预测 的 过 程 类 似 于 有 向 图 的 广度 优先 遍历 ， 在 遍历 过 程 中 会 增加 时 间 的 限制 。 
当 预 测 某 一 时 刻 的 网 络 状态 时 ， 根 据 节点 的 发 出 预测 时 间 而 终止 基于 BFS 的 信息 传播 预测 。 当 到 
达 终止 时 刻 前 ， 行 为 a 在 网 络 中 传播 可 能 也 会 有 终止 状态 ， 未 达到 终止 状态 时 ， 网 络 中 发 出 行为 
a 的 用 户 会 逐渐 增加 ， 体 现在 集合 B* 上 就 是 集合 的 大 小 随时 间 推 移 而 增 大 ， 当 达到 终止 稳定 状态 
时 ， 网 络 中 所 有 用 户 对 于 行为 a 的 发 出 状态 不 再 发 生变 化 ， 集 合 吾 * 的 大 小 也 不 会 发 生变 化 。 


2. 股票 价格 涨 跌 趋 势 预 测 模型 


上 面 提 出 的 基于 微 博 情感 信息 传播 预测 模型 ， 对 于 股票 价格 的 预测 十 分 适用 。 在 股票 价格 预 
测 的 实现 中 ， 提 取 股 市 开盘 时 某 支 股票 相关 的 微 博 言论 ， 通 过 信息 传播 预测 模型 ， 预 测 在 股市 收 
盘 前 对 这 支 股票 持 看 涨 态度 和 看 跌 态度 的 用 户 数量 以 及 在 网 络 中 的 分 布 情况 ， 可 以 很 清晰 地 对 未 
来 股票 价格 涨 跌 趋 势 做 出 预测 。 纽 约 证 券 交易 所 是 美国 第 一 大 证 券 交 易 市 场 ， 它 的 交易 时 间 是 从 
美国 东部 时 间 上 午 9:30 到 下 午 4:00， 中 午 不 休息 ， 美 国 其 他 证 券 交 易 所 ， 如 纳 斯 达 克 证 券 交 易 所 
均 遵 循 上 述 时 间 。 这 里 只 针对 美国 股市 对 Twitter 平台 的 微 博 内 容 进 行 分 析 ， 基 于 新 浪 微 博 等 中 文 
社交 网 络 的 股票 价格 预测 方法 与 Twitter 平台 类 似 。 

在 预测 股票 价格 涨 跌 趋势 过 程 中 ， 采 集美 国 股市 上 午 开 市 时 的 股票 言论 微 博 ， 分 析 微 博 中 体 
现 的 对 该 股票 的 情感 态度 ， 通 过 上 节 中 介绍 的 用 户 影响 联合 概率 的 计算 方法 ， 逐 步 预 测 网 络 中 的 
用 户 在 两 种 情感 态度 影响 下 的 行为 ， 并 在 美国 股市 下 午 收市 前 ， 比 较 网 络 中 持 不 同情 感 态度 的 用 
户 数量 ， 再 根据 “个 人 行为 受 情感 支配 ”理论 ， 可 以 预测 这 支 股票 在 股市 收市 前 是 涨 还 是 跌 。 

预测 股票 价格 看 涨 传播 趋势 的 流程 图 如 图 10.24 所 示 。 
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读 取 用 户 发 布 的 历史 微 
博 ， 并 将 用 户 添 加 到 
BullSet & BullQueue 








将 该 用 户 和 历史 微 博 
添加 到 BearSet & 
BearQueue 
计算 该 用 户 所 有 子 节点 的 
联合 影响 概率 P(S)， 并 将 
该 用 户 从 BullQueue 中 移出 
Ai 该 子 节点 用 户 不 受 父 
N 节点 情感 的 影响 
¥ 







将 该 子 节点 用 户 添加 到 看 
涨 用 户 集合 BullSet & 
BullQueue 





统计 BullSet 中 的 用 户 数量 


10.24 ”预测 看 涨 情感 传播 趋势 流程 图 


具体 算法 的 详细 描述 如 下 ， 预 测 股票 价格 涨 跌 趋 势 算法 以 苹果 公司 股票 SAAPL 为 例 ， 预 测 对 
$AAPL 看 涨 的 情感 在 网 络 中 的 传播 趋势 ， 而 看 跌 情 感 的 传播 完全 相同 。 算 法 的 输入 是 社交 网 络 有 
向 图 6 = (W577) 以 及 股票 开 市 时 间 T 时 Twitter 平台 上 对 $AAPL 持 看 涨 的 情感 态度 的 用 户 节点 。 所 
有 对 $AAPL 持 看 涨 态度 的 用 户 用 集合 BullSet 表示 ， 而 每 次 预测 的 看 涨 用 户 用 队列 BullQueue 表 
示 ， 预 测 用 户 u 发 出 看 涨 态度 行为 的 时 间 为 + ， 当 且 仅 当 z < 《收盘 时 间 ) 时， 用 户 u 被 加 入 
看 涨 用 户 集合 BullSet 以 及 队列 BullQueue 中 。 整 个 预测 算法 过 程 类 似 于 有 向 图 的 深度 优先 遍历 ， 
其 伪 代 码 描述 如 下 所 示 : 
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1: Bullset= ,BullQueue = 0 
2: for sach bulllah node y at time 7, do 
3: addv to Bulset & BullQueue 
: while BullQueue ls not empty do 
delete the front node vy 
for each chjld node u of¥ do 
if uisnot bullishnode and t, + ty < Ts then 
calculate p..C5) 
fu.(3) > &, then 
10: tu = ty+ tym 
11: add uto BuillSet &BulQueue 
12: count |BullSet! 


4 
5 
Gs 
RE 
8 
9 


算法 具体 的 步骤 如 下 : 


人 Di)， 初始 化 看 涨 用 户 集合 BullSet 和 新 增加 看 涨 用 户 集合 BullQueue (第 1 行 )。 
人 02 将 开盘 时 刻 网 络 中 所 有 看 涨 用 户 添加 到 两 个 集合 中 (第 2~3 行 )。 
DT03 对 新 增加 看 涨 用 户 集合 中 的 每 个 用 户 进行 子 节点 分 析 。 
。 看 涨 用 户 的 子 节点 如 果 不 是 看 涨 用 户 且 成 为 传播 节点 的 时 间 先 于 收盘 时 间 T,， 计 算 该 节 
点 的 影响 联合 概率 (第 7-8 行 ) 。 
e 节点 的 影响 联合 概率 大 于 节点 的 行为 影响 阅 值 @， 更 新 该 节点 的 行为 发 出 时 间 ， 添 加 该 
节点 到 BullSet 和 BullQueue 两 个 集合 (第 9~11 行 ) 。 
人 64 统计 看 涨 用 户 集合 中 用 户 数量 (第 12 行 )。 


以 上 算法 为 预测 看 涨 用 户 在 股市 收盘 时 的 数量 ， 利 用 同样 的 方法 可 以 预测 看 跌 用 户 在 股市 收 
盘 时 的 数目 ， 只 需 将 算法 第 2 行 股市 开盘 时 对 股票 持 看 涨 态度 的 用 户 节点 变 为 持 有 看 跌 情 感 的 用 
户 节点 即 可 。 预 测 看 跌 情 感 传 播 趋势 流程 图 如 图 10.25 所 示 。 
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读 取 用 户 发 布 的 历史 微 博 ， 
并 将 用 户 添加 到 BearSet & 





BearQueue 








将 该 用 户 和 历史 微 博 
添加 到 BullSet & 
BullQueue 
计算 该 用 户 所 有 子 节点 的 联 
合影 响 概率 P(S)， 并 将 该 用 
户 从 BearQueue 中 移出 







将 该 子 节点 用 户 添加 到 看 跌 
用 户 集合 BearSet & 
BearQueue 


FearQueue 为 
空 ? 
VY 
统计 BearSet 中 的 用 户 数量 





图 10.25 ”预测 看 跌 情感 传播 趋势 流程 图 


比较 两 种 情感 态度 持 有 的 用 户 数量 ， 可 以 直观 地 预测 出 微 博 网 络 中 大 多 数 用 户 对 股票 价格 的 
清 感 态度 ， 由 于 大 多 数 用 户 缺乏 独立 思考 ， 具 有 从 众 的 心理 ， 且 个 人 的 行为 受 情感 的 支配 ， 大 多 
数 人 的 情感 指引 他 们 对 股票 采用 相同 的 操作 ， 个 人 的 行为 演变 为 网 络 整体 的 行为 ， 从 而 使 得 股票 
的 价格 随 着 大 多 数 用 户 的 心理 趋势 而 变化 。 因此 这 里 从 预测 Twitter 社交 网 络 中 大 多 数 人 对 股票 的 
情感 态度 ， 成 功 预测 这 支 股票 在 收盘 时 刻 的 价格 涨 跌 趋 势 。 预 测 的 流程 图 如 图 10.26 所 示 。 
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统计 BullSet 中 的 看 涨 骨 户 
数量 


统计 BearSet 中 的 看 跌 用 户 
数量 


{BullSetj>IBearSet? 




























输出 预测 结果 为 看 涨 输出 预测 结果 为 看 跌 


图 10.26 股票 价格 涨 跌 预 测 流程 图 


由 股票 价格 预测 的 方法 可 以 看 出 ，Twitter 网 络 中 对 股票 持 看 涨 或 看 跌 情感 的 源头 是 该 股票 开 
盘 时 微 博 网 络 中 首先 对 股票 持 看 涨 或 看 跌 情 感 的 用 户 。 当 源头 用 户 越 多 ， 情 感 越 强 烈 时 ， 对 股票 
价格 预测 的 准确 率 也 会 越 高 。 另 外 存在 一 种 情况 ， 当 股市 收盘 前 某 一 时 刻 ， 社 交 网 络 中 所 有 用 户 
的 情感 可 能 就 不 再 发 生 更 新 ， 这 时 持 两 种 情感 的 用 户 的 数量 对 比 就 是 最 终 股 市 收盘 时 的 用 户 数量 
对 比 ， 可 以 直接 通过 此 时 用 户 的 数量 预测 收盘 时 股票 价格 的 涨 跌 趋 势 。 


10.4.5 “系统 实现 


本 系统 主要 提供 了 一 个 基于 微 博 的 股票 市 场 预测 软件 ， 通 过 该 系统 用 户 可 以 采集 并 查询 来 自 
Twitter 有 关 股 票 的 微 博信 息 ， 系 统 通过 对 信息 进行 一 定 的 处 理 和 分 析 ， 根 据 微 博 情感 在 社交 网 络 
中 的 传播 趋势 来 预测 未 来 一 段 时 间 内 股票 价格 的 涨 跌 趋 势 。 

股票 市 场 中 的 交易 是 一 个 不 稳定 的 时 刻 动 态 变化 的 过 程 ， 不 但 受到 国内 外 的 经 济 因素 影响 ， 
还 受到 股票 投资 人 的 行为 控制 。 除 此 之 外 ， 来 自 政 府 的 宏观 调控 也 是 影响 股票 价格 在 未 来 走势 的 
主要 因素 。 基 于 以 上 原因 ， 股 票 价格 涨 跌 趋势 预测 选取 的 预测 对 象 是 价格 运行 较 平 稳 的 股票 ，; 
种 模型 可 以 反映 股市 的 正常 交易 规律 ， 从 而 具有 良好 的 推广 能 力 。 综 上 记述 ， 本 系统 选取 苹果 公 
司 股票 SAAPL 以 及 Google〈 谷 歌 ) 公司 股票 GOOG 作为 预测 对 象 ， 选 取 的 两 个 预测 股票 对 象 流 
通 市 值 较 大 ， 企 业 业 绩 较 好 ， 而 且 企业 的 诚信 度 较 高 ， 该 选取 尽量 避免 了 人 为 操纵 股票 和 弄 虚 作 
假 的 情况 。 

股票 市 场 的 交易 运作 是 周期 性 的 ， 可 以 大 致 分 为 长 期 、 中 期 、 中 短期 、 短 期 等 几 个 周期 。 若 
进行 不 同 周期 长 度 的 股市 预测 ， 则 需要 应 用 不 同 规模 的 数据 。 预 测 周期 长 则 需要 大 规模 的 数据 ， 
而 预测 周期 短 ， 数 据 需求 规模 就 小 一 些 。 数 据 规 模 的 选取 与 预测 对 象 的 选取 同等 重要 ， 当 应 用 的 
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数据 规模 较 大 时 ， 预 测 模型 具有 较 强 的 推广 能 力 ， 只 是 在 局 部 趋势 预测 的 精度 会 差 一 些 ; 但 是 应 
用 数据 规模 较 小 时 ， 预 测 模型 不 具备 较 强 的 推广 能 力 。 综 上 所 述 ， 本 系统 针对 中 短期 预测 ， 预 测 
苹果 公司 股票 SAAPL, 选取 Twitter 平台 上 对 $AAPL 感 兴趣 的 用 户 网 络 , 该 网 络 中 有 5587 名 用 户 ， 
历史 发 布 关于 $AAPL 的 微 博 言论 共 82 760 条 ; 预测 Google 公司 股票 SGOOG 则 选取 对 $GOOG 感 
兴趣 的 用 户 网 络 ， 网 络 中 有 3250 名 用 户 ， 历 史 发 布 关于 $GOOG 的 微 博 言论 共 36 802 条 。 

对 股票 价格 涨 跌 趋 势 的 预测 以 苹果 公司 股票 SAAPL 为 例 , 首先 ,通过 Twitter 平台 提供 的 APL， 
提取 2011 年 8 月 1 日 至 2011 年 12 月 21 日 时 间 段 内 , Twitter 用 户 所 有 发 表 内 容 包含 9yAAPL 的 微 
博 。 搜 索 包 含 关键 词 “$AAPL ”的 微 博 采 用 GET search/tweets API， 访 问 https://api.twitter.com/1.1/ 
search/tweets.xml?q=$AAPL ,将 返回 的 XML 格式 的 数据 解析 即 可 得 到 近期 微 博 内 的 包含 “$AAPL” 
关键 字 的 微 博信 息 。 

提取 的 SAAPL 股票 内 容 存储 在 MySQL 数据 库 中 的 表 $aapl 中 股票 的 名 称 即 为 数据 库 的 表 
名 ， 有 助 于 区 分 不 同 股 票 的 微 博 内 容 表 )， 表 $aapl 的 结构 与 返回 XML 格式 信息 中 的 属性 基本 相 
同 ， 如 图 10.27 所 示 。 











id text source userid user_name creat_at 

bP 100000131646107648 “@KMVarrichio: Actually, that tweet <a href="http://twitter.co 377458120 highwhilesober 2011-08-07 00:27:43 
100002052985454592 Tech titans hoard cash and don't re <a href="http://twitter.co 16413382 CapitalObserver 2011-08-07 00:35:22 
100003517393145857 RT @SAL Here Are The Best iphone <a href=*http://www.bus 309349384 qneteg 2011-08-07 00:41:11 
100005962567532544 RT @CapitalObserver: Tech titans h <a href="http://twitter.co 19302828 deandobbs 2011-08-07 00:50:54 
100008591855058944 。 8/5/11 Algorithm tracks 611 stocks <a href="http://twitter.co 212467856 strategic_opt 2011-08-07 01:01:21 
100008966645493760 1t figures that on the day 1 downloa <a href="http://itunes.ap 171878775 JamarParris 2011-08-07 01:02:50 
100011374054350849 $AAPL Thanks. Somehow 1 knew y <a href="http://twitterfee 341344687 stockpulses 2011-08-07 01:12:24 
100013465581793280 ”GDP = Gross Domestic propagandi <a href=*http://mobilety 305111045 。 party_man2012 2011-08-07 01:20:43 
100015269082169344 ~ RT @upsidetrader: NEW POST: CO <a href="http://ubersoci; 17533601 skayfe 2011-08-07 01:27:53 
100016754310389760 Is it 1984? Because $aapl wants to 1 <a href="http://mobile.tv 170432370 optionspirate 。 2011-08-07 01:33:47 
100018285105520643 @elingford on $IDCC ,, Tech relatec <a href=*http://twitter,co 66232446 BreakoutBull 2011-08-07 01:39:52 
100019252114882561 $AAPL You are so smart - why can't <a href="http://twitterfee 341344687 stockpulses 2011-08-07 01:43:42 
100020055164727296 。? Your Daily $AAPL ? is out! http://b <a href="http://paper.li” 17433343 DigDugTrader 2011-08-07 01:46:54 
100020478533578752 RT @DigDugTrader: ? Your Daily $£ <a href="http://paper.li" 37928746 Hephaestus7 2011-08-07 01:48:35 


图 10.27 $AAPL 股票 相关 微 博 数据 库 表 $aapl 


苹果 股票 相关 微 博 表 $aapl 中 ， 每 个 元 组 的 属性 依次 为 : Twitter 微 博 ID、 微 博文 本 内 容 、 微 
博 来 源 、 发 出 微 博 的 用 户 ID、 用 户 名 、 发 出 微 博 时 间 。 本 文 使 用 XML 解析 器 来 解析 API 请 求 返 
回 的 关键 字 搜 索 结 果 ， 从 结果 中 解析 以 上 各 属性 对 应 的 值 ， 直 接 插入 数据 库 的 $aapl 表 中 。 关 键 字 
搜索 结果 以 时 间 顺 序 排列 ， 因 此 也 保证 了 $aapl 表 中 所 有 的 微 博 内 容 同 样 按照 时 间 顺 序 排列 。 之 后 
的 API 搜索 请 求 ， 可 以 在 访问 资源 地 址 中 加 入 since_id 属性 以 保证 搜索 结果 不 会 与 之 前 的 搜索 结 
果 重 复 , 如: https://api.twitter.com/1.1/search/tweets.xml?q=$AAPL&since_id=100020478533578753。 

当 提 取 完 $AAPL 股票 相关 言论 的 微 博 内 容 后 , 根据 所 提取 的 微 博 内 容 , 建立 对 苹果 公司 股票 
感 兴趣 的 用 户 网 络 。 首 先 根据 $aapl 表 中 的 user_id 列 ， 通 过 GET users/show API 获取 用 户 的 详细 
信息 。 获 取 ID 为 377458120 的 用 户 信息 的 访问 资源 地 址 为 http://api.twitter.com/1.1/users/show.xml? 
user_id=377458120， 再 次 通过 解析 XML 格式 的 返回 数据 ， 将 用 户 信息 资料 存储 到 数据 库 表 
user_$aapl 中 ， 如 图 10.28 所 示 。 
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训 
bhooo7o861 
100098265 
10011032 
100244944 
100286145 
100316615 
100324523 
100364439 
100441318 
100511648 
100592354 
100597465 
100708381 
100787644 





name screenName 
Scot Kramarich scotkramarich 
Ryan Rust Ryan_Rust 
skycrusher skycrusher 
Gerald Thurman compufoo 
Gino Giacumbo Ginolnvesting 
Andrew Rhombe arhomberg 
ProphetAlerts.cc ProphetAlerts 
2222 yamamoto1975 
Sir Kumference sirkumference 
sergiovp sergiovelezp 
Legacy Trades Legacy Trades 
#CPC cant hv m CometsMum 
Africaninvestor Africaninvestor 
Mike Finnegan = Gofinny 





EE 


location description 
LosAngeles Software developer en 
Hampton Road en 
On a coast sorr Life & Golf Are Not A en 
Tempe, Arizona Computing/math inst en 
San Diego, CA Obscure fascination ven 


London Founder of Jellybook en 
Just thoughts and clif en 
22? 3222 ja 


Knight of the very rot en 
Economist en 
Here there Be Legacy Investments & en 
Canada Fair-minded curious | en 
#African from #Ghan en 
Indianapolis ”Im an IT Maven and en 


3: 


5 


langu follower user follower 


142 137508847+1778< 
38 94267686+49202; 

6 238526507+2281< 
59 83980008+17784: 
99 391175224+3047t 
549 22329304+28966: 
556 397813137+39665 
66 267767348+2645t 
25 379555085+2523( 
437 320510943+3525: 
672 393466499+37434 
361 365859075+2576- 
759 19156797+39715 
56 378200405+2459: 


10.28 用 户 信息 表 user_$aapl 


$AAPL 股票 用 户 信息 表 user_$aapl 中 , 每 个 元 组 的 属性 依次 为 : 用 户 ID 用户 名 、 显 示 了 昵称 、 
所 在 地 、 用 户 描 述 、 语 言 、 粉 丝 数 、 粉 丝 集合 、 关 注 数 、 关 注 用 户 集合 以 及 用 户 权 重 。 其 中 粉丝 
集合 以 及 关注 用 户 集合 分 别 通过 GET followers/ids 和 GET friendsids API 查询 得 到 ， 用 户 之 间 以 
“+” 分 隔 。 用 户 在 Twitter 平台 上 的 网 络 关系 用 集合 的 方式 表达 十 分 不 便 ， 因 此 本 系统 还 建立 了 
用 户 关系 表 relation_$aapl。 该 表 主 键 为 有 关注 关系 的 两 个 用 户 ID， 如 图 10.29 所 示 。 


idV idU infuence_p 
Pb 14886375 17745360 0.1485 
17745360 14886375 0.1268 
52166809 17745360 0.0125 
84444981 17745360 0.0752 
3705681 17745360 0.1538 
17880354 17745360 0.0059 
15368728 17745360 0.1129 
21059648 17745360 0.0698 
17745360 21059648 0.1026 
18341423 17745360 0.0359 
63061242 17745360 0.1632 
14115408 17745360 0.0965 
27922928 17745360 0.0635 


delaytime 
54.36 
32.89 
98.59 
67.16 
39.26 
100.59 
23,59 
198.26 
86.29 
97.29 
46.68 
203,68 
168.39 


图 10.29 用 户 关系 表 relation_$aapl 


遍历 微 博 信息 表 $aapl， 统 计 每 个 微 博 用 户 发 布 的 关于 苹果 公司 股票 的 原创 微 博 O7、 对 话 微 

博 CT 与 CP、 转发 微 博 RT 的 数量 。 通 过 10.4.2 节 中 的 公式 计算 微 博 用 户 的 4 种 特征 值 : 主题 
参与 度 、 原 创 度 、 非 对 话 强 度 以 及 内 容 影响 力 ， 并 通过 加 和 计算 对 $AAPL 感 兴趣 的 用 户 的 权 值 W 
(Cu)， 保 存在 数据 库 表 user_$aapl 的 weight 列 中 ， 如 图 10.28 所 示 。 
在 计算 用 户 影响 联合 概率 时 ， 通 过 提出 的 算法 可 以 尽 可 能 少 地 扫描 微 博 样本 集合 。 样 本 集合 

中 的 每 条 微 博 就 是 一 个 曾 发 出 的 行为 , 通过 判断 行为 相似 度 , 将 输入 的 样本 集合 按照 行为 id 排序 ， 
具有 相同 id 的 行为 则 按时 间 先后 排序 ， 排 序 需求 很 容易 通过 数据 库 提供 的 排序 功能 满足 。 本 系统 
提出 的 计算 用 户 影响 联合 概率 的 算法 对 于 Jaccard 系数 静态 模型 和 连续 时 间 模型 ,只 需要 对 行为 集 
合 做 一 次 遍历 即 可 ， 而 Jaccard 系数 离散 时 间 模 型 对 于 的 限制 ， 需 要 对 训练 集 做 两 次 遍历 。 计 
算 过 程 中 , 用 户 v 对 用 户 u 的 行为 影响 概率 储存 在 用 户 关系 表 relation_$aapl 的 influence_p 列 ， 而 
行为 平均 影响 延迟 时 间 储 存在 列 delaytime 中 ， 如 图 10.29 所 示 。 用 户 u 所 受 的 影响 联合 概率 可 通 


followim user following 
242 224180785+3152! 
150 393929229+4920; 
51 369732560+1165; 
0 
140 15298655+87738; 
473 11009852+17705 
278 249450052+3742; 
77 154088683+2652! 
283 327243160+2878! 
86 155996033+3354; 
165 209907837+2799| 
127 398100516+4671! 
195 16731133+27402; 
101 25053299+62716. 


weight 
20.33 
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过 用 户 关 系 表 中 的 数据 动态 计算 。 

当 分 析 完 社交 网 络 中 的 用 户 各 属性 后 ， 就 可 以 对 SAAPL 股票 价格 涨 跌 趋 势 进行 预测 。 依 然 以 
对 $AAPL 股票 持 看 涨 态度 在 社交 网 络 中 的 传播 为 例 ,在 2011 年 11 月 15 日 上 午 9:30 股市 开盘 时 ， 
对 Twitter 平台 上 用 户 发 布 的 微 博 内 容 进行 实时 抓 取 , user_$aapl 表 中 有 Fortune Magazine 等 53 个 
用 户 节点 发 表 了 看 涨 的 情感 态度 , 将 用 户 加 入 到 看 涨 用 户 集合 BullSet 中 。 通过 改进 的 广度 优先 遍 
历 算法 ， 分 析 这 些 用 户 的 看 涨 态度 在 社交 网 络 中 的 传播 情况 。 以 这 53 名 用 户 为 源头 , 广度 优先 遍 
历 至 11 层 时 ， 新 增加 的 看 涨 用 户 发 出 看 涨 态 度 的 预测 时 间接 近 收盘 时 间 16:00， 算 法 运行 结束 。 
进而 以 相同 的 方式 预测 看 跌 情感 在 网 络 中 的 传播 情况 ， 最 终 预测 的 看 涨 用 户 集合 中 的 用 户 数量 以 
及 看 跌 用 户 集合 中 的 用 户 数 量 如 图 10.30 所 示 。 








看 跌 用 户 数量 1032 人 ] ”看 涨 用 户 数量 
图 10.30 ”预测 看 涨 用 户 和 看 跌 用 户 数量 对 比 


预测 结果 中 有 1032 名 看 涨 用 户 , 有 298 名 看 跌 用 户 , 根据 用 户 行为 受 情感 支配 理论 , 看涨 用 
户 的 股市 交易 操作 将 直接 影响 股票 价格 的 轻微 上 扬 。 而 实际 上 ， 荚 果 股 票 的 开盘 价 为 $380.80， 收 
盘 价 为 93388.83,， 在 2011 年 11 月 15 日 交易 日 内 ,苹果 公司 的 股票 上 涨 ， 而 基于 社交 网 络 中 情感 
信息 传播 预测 模型 预测 苹果 公司 股票 在 本 交易 日 内 同样 是 上 涨 ， 这 是 一 次 成 功 的 预测 。 

基于 微 博 的 股票 市 场 预测 系统 界面 如 图 10.31 所 示 。 
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基于 微 博 的 股票 市 场 预测 系统 。 
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中 心 


10.31 基于 微 博 的 股票 市 场 预 测 系统 主 界面 


从 主 界面 可 以 看 出 ， 本 系统 为 用 户 提供 了 三 项 基本 功能 : 微 博 数 据 导 入 、 股 票 价 格 预 测 、K 
线 图 查询 。 在 微 博 数据 导入 部 分 ， 系 统 可 以 显示 需要 查看 的 关于 某 支 股票 的 Tweets 消息 ; 股票 价 





422 


第 10 章 “” 基 于 微 博 的 股票 市 场 预测 系统 





格 预测 部 分 ， 用 户 可 以 输入 需要 预测 的 股票 代码 和 预测 时 间 ， 系 统 会 返回 给 用 户 一 个 预测 结果 ; 
K 线 图 查询 部 分 ， 根 据 股票 代码 用 户 可 以 查询 某 支 股票 的 K 线 图 。 

在 微 博 数据 导入 部 分 ， 用 户 可 以 输入 需要 导入 微 博 的 股票 代码 和 时 间 ， 系 统 从 数据 库 中 将 查询 
并 返回 给 用 户 结果 ， 包 括 每 条 微 博 的 发 布 时 间 、 作 者 和 微 博 内 容 。 如 图 10.32 所 示 ， 系 统 查询 了 自 
2011 年 8 月 1 日 至 2011 年 12 月 21 日 时 间 段 内 ， 和 用 古色 和 AP 的 所 让 全 情 5 
nn [Ex 一 | 


轿 王 于 污 必 的 的 到 市场 下 系统 









基于 微 博 的 股票 市 场 预测 系统 


租 博 数据 导入 
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ecopyri eh: 西安 电子 科 搜 大 学 Repacs 研 究 中 心 


图 10.32 ”$AAPL 股票 相关 微 博 导入 结果 


股票 价格 预测 时 ， 用 户 需 要 输入 预测 的 股票 代码 和 预测 时 间 ， 系 统 根据 上 文 介绍 的 基于 微 博 
情感 信息 传播 的 股票 价格 预测 算法 ， 给 出 预测 结果 。 如 图 10.33 所 示 ， 用 户 输入 股票 代码 AAPL 
和 预测 时 间 “2011-10-24”, 系统 将 给 出 当天 的 K 线 图 和 预测 结果 , 从 图 10.33 中 可 以 看 出 2011-10-24 
当天 开盘 价 是 $369.18， 收 盘 价 是 $405.77， 系 统 根据 看 涨 和 看 跌 的 人 数 预测 出 看 涨 率 为 1.19346， 
看 跌 率 为 0.630899， 预 测 结果 为 看 涨 ， 符 合股 市 当前 价格 走势 。 所 以 本 系统 预测 结果 正确 。 













































































图 吾 于 区 人 的 股票 市 机 系统 [= © sg) 
基于 微 博 的 股票 市 场 预测 系统 1。 
股票 价格 预 询 
者 于 
119340 
Pe Ea : | | e009 
T701058.1 Eo 
Ee :| [ee | 4 
mna4 20111025 
天 图 真实 价格 巴结 果 
美 中 sitter| 了 ]】 要 票 R PL 预 册 时 间 11-10-24 开始 
E33 
corr; 西安 电子 科技 大 字 aepee< 清 完 中 心 




















10.33 SAAPL 股票 价格 预测 结果 
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最 后 ， 用 户 还 可 以 查看 某 支 股票 的 K 线 走势 图 ， 例 如 输入 AAPL， 系 统 将 根据 抓 取 到 $AAPL 
股票 历史 的 开盘 价 、 收 盘 价 、 最 高 价 、 最 低 价 ， 生 成 相应 的 K 线 图， 用 户 可 以 通过 K 线 图 来 判断 
预测 结果 的 准确 性 ， 如 图 10.34 所 示 。 















































图 三 于 的 让 要 市域 = 
2 i 
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10.34 SAAPL 股票 价格 K 线 图 
另外 , 作者 通过 预测 SAAPL 股票 在 2011 年 10 月 24 日 到 2011 年 10 月 18 上 日 这 5 个 交易 日 内 
的 涨 跌 趋势 ， 来 验证 该 预测 系统 的 有 效 性 ， 得 到 的 预测 结果 如 表 10.12 所 示 . 
表 10.12 ”$AAPL 股票 涨 跌 趋 势 预测 结果 


通过 表 10.12 并 结合 图 10.34 SAAPL 股票 K 线 图 可 以 看 出 , 预测 SAAPL 股票 在 5 个 交易 日 内 
的 涨 跌 趋势 中 ,只 有 2011-10-25 一 次 预测 错误 , 所 以 , 在 以 上 5 个 工作 日 内 预测 正确 率 均 为 80%。 














本 章 小 结 


本 章 作为 大 数据 的 应 用 篇 ， 以 Twitter 海量 数据 为 背景 ， 介 绍 了 一 种 基于 Twitter 微 博 的 股票 
市 场 预测 系统 ， 并 给 出 了 该 系统 的 详细 设计 与 实现 方案 。 首 先 ， 需 要 从 Twitter 社交 网 络 中 采集 海 
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量 用 户 信息 和 微 博信 息 ， 然 后 ， 对 这 些 海量 数据 进行 预 处 理 ， 完 成 微 博 情感 分 析 和 用 户 权威 值 的 
计算 。 再 计算 出 社交 网 络 中 用 户 之 间 的 影响 关系 和 受到 的 联合 影响 概率 ， 根 据 微 博 情感 信息 传播 
预测 模型 ， 统 计 出 未 来 一 段 时 间 网 络 中 对 股票 持 看 涨 和 看 跌 的 用 户 数量 。 最 后 ， 预 测 出 股票 价格 
的 涨 跌 趋 势 。 通 过 实现 表明 ， 本 系统 在 处 理 海量 数据 方面 具有 很 高 的 效率 ， 在 预测 股票 价格 涨 跌 
时 也 能 达到 令 用 户 满意 的 准确 度 。 
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第 11 章 
有 基于 内 容 的 海量 视频 检索 系统 


在 安防 领域 不 断 发 展 的 前 提 下 ， 视 频 监控 成 为 了 研究 与 应 用 的 热点 领域 。 本 章 主要 介绍 一 个 
基于 内 容 的 海量 视频 检索 系统 , 该 系统 运用 MapReduce 对 视频 中 运动 对 象 提取 的 方法 进行 了 改进 ; 
使 用 HBase 进行 系统 中 相关 数据 的 存储 ; 采用 一 种 新 型 的 方法 对 检测 到 的 运动 对 象 进行 行为 识别 ， 
并 创新 性 地 利用 规则 组 合 的 方式 对 复杂 行为 进行 定义 与 检索 。 本 章 首先 对 该 系统 的 功能 性 需求 与 
非 功能 性 需求 进行 了 描述 ， 深 入 分 析 并 给 出 了 系统 的 主要 业务 流程 以 及 系统 的 整体 架构 图 ， 然 后 
对 系统 中 涉及 的 各 种 相关 技术 进行 简要 的 介绍 ， 最 后 详细 介绍 系统 中 各 个 模块 的 设计 与 实现 。 








应 用 背景 


智能 视频 监控 技术 是 在 传统 视频 监控 技术 的 基础 上 发 展 起 来 的 。 传 统 的 视频 监控 系统 技术 发 
展 经 历 了 三 个 时 代 : 模拟 时 代 、 数 字 时 代 和 网 络 时 代 。 目 前 智能 视频 监控 技术 主要 包括 自动 从 视 
频 图 像 序列 中 进行 运动 对 象 的 提取 、 描 述 、 跟 踪 和 行为 识别 等 功能 。 智 能 视频 监控 技术 借助 计算 
机 强大 的 数据 处 理 功能 ， 对 海量 视频 数据 进行 高 速 的 分 析 ， 过 滤 掉 用 户 不 关心 的 信息 ， 仅 对 用 户 
提供 有 用 的 关键 信息 。 智 能 监控 视频 技术 的 最 终 目 的 就 是 要 使 计算 机 能 够 分 析 、 描 述 和 理解 视频 
画面 中 的 内 容 ， 这 其 中 涉及 计算 机 视觉 、 图 像 视频 处 理 以 及 人 工 智能 等 众多 领域 的 核心 技术 。 

目前 , 国内 外 对 于 智能 视频 监控 技术 的 研究 都 有 了 很 大 的 成 就 。 其 中 , QBIC (Query By Image 
Content) 系统 是 由 IBM Almaden 研究 中 心 开发 的 ， 是 一 个 典型 的 基于 内 容 的 视频 检索 ， 是 最 早 的 
视频 检索 系统 ， 检 索 条 件 包括 关键 字 和 视频 的 颜色 、 纹 理 、 形 状 等 特征 。 在 QBIC 系统 中 ， 提 供 
三 种 查询 方式 ， 用户 可 以 指定 所 需 视频 的 主要 颜色 ; 用 户 可 以 指定 所 需 视频 中 相似 像素 出 现 的 机 
率 ; 用 户 可 以 画 出 一 个 形状 ， 按 此 形状 进行 查询 。 

IBM S3 (Smart Surveillance System) 是 IBM 公司 2009 年 开发 的 一 款 智能 化 视频 监控 系统 ， 
是 一 款 基于 事件 的 检索 系统 , 包含 实时 报警 以 及 历史 事件 检索 两 部 分 。S3 是 基于 行为 轨迹 分 析 的 
先进 的 视频 图 像 分 析 系 统 ， 能 够 实时 分 析 视 频 信号 ， 实 时 提取 监控 视频 的 行为 轨迹 和 对 象 属性 ， 
发 生 异常 产生 报警 信息 ， 并 以 标准 协议 格式 通过 网 络 传送 ， 提 供 实 时 报警 显示 、 事 件 查询 和 历史 
时 间 统 计 分 析 等 先进 的 功能 。 在 视频 检索 方面 ，S3 是 基于 事件 的 检索 ,可 以 基于 以 下 条 件 进行 检 
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索 : 持续 时 间 、 目 标 类 型 、 目 标 大 小 、 目 标 颜色 、 目 标 在 场景 中 出 现 的 位 置 等 。 

虽然 国外 智能 视频 监控 技术 的 研究 要 早 于 国内 , 但 国内 的 许多 高 等 院 校 和 研究 机 构 在 智能 视 
频 监控 领域 都 投入 了 大 量 的 研究 精力 ， 其 中 包括 上 海 交通 大 学 、 清 华 大 学 、 华 中 科技 大 学 和 中 国 
科学 院 自动 化 研究 所 等 。 而 国内 也 有 不 少 企业 开始 着 手 研究 智能 视频 检索 系统 ， 其 中 关注 度 较 高 
的 是 深圳 久 凌 公司 研制 的 “ 警 用 视频 检索 系统 ”。 该 系统 首先 使 用 运动 分 割 方法 提取 运动 的 目标 ， 
而 后 这 些 运动 目标 的 基本 特征 作为 元 数据 被 提取 出 来 ， 存 入 数据 库 。 在 整个 检索 过 程 中 ， 系 统 会 
将 提取 检索 输入 的 特征 ， 请 求 比 对 数据 库 已 经 索引 号 的 目标 特征 ， 而 不 用 重新 处 理 视频 。 最 后 ， 
拥有 足够 高 相关 度 的 视频 目标 快照 将 被 作为 结果 显示 出 来 。 同 时 可 以 通过 提供 目标 特征 (人 车 类 
别 、 颜 色 、 高 度 、 方 向 、 速 度 等 )、 一 副 样 照 或 者 素描 图 来 请 求 搜索 。 该 系统 支持 基于 事件 、 目 标 
分 类 或 者 样本 检索 等 模糊 查询 检索 功能 。 

通过 智能 视频 监控 系统 可 以 大 大 降低 人 工 的 观察 时 间 ， 提 高 系统 的 数据 分 析 能 力 与 相关 视频 
检索 的 能 力 。 本 章 将 要 介绍 的 “海量 监控 视频 检索 系统 ”就 是 通过 MapReduce 框架 不 断 地 对 一 个 
或 者 多 个 摄像 头 产 生 的 视频 以 及 已 经 存在 的 视频 进行 处 理 ， 提 取出 视频 中 出 现 的 运动 目标 ， 并 对 
目标 的 行为 以 及 外 形 特 征 进行 分 析 提 取 ， 将 处 理 结果 存 入 HBase 数据 库 中 。 当 用 户 在 浏览 器 中 上 
传 需要 查询 的 人 物 图 像 或 者 输入 指定 的 时 间 、 地 点 、 行 为 等 信息 后 单 击 查询 ， 服 务 器 将 会 首先 对 
上 传 的 图 像 进 行 处 理 ， 提 取出 图 像 中 人 物 的 颜色 、 纹 理 等 特征 ， 然 后 将 提取 出 的 特征 值 与 数据 库 
中 所 存储 的 各 个 对 象 的 特征 值 进行 比较 ， 筛 选 出 最 为 接近 的 几 个 结果 ， 最 后 再 通过 时 间 、 地 点 、 
行为 等 查询 条 件 最 终 确定 输出 结果 。 为 了 尽 可 能 提高 准确 性 ， 输 出 的 结果 是 与 查询 条 件 最 为 接近 
的 一 组 视频 数据 。 这 一 组 视频 数据 为 经 过 处 理 后 仅 具有 用 户 感 兴趣 信息 的 视频 片段 ， 用 户 可 以 仅 
仅 浏览 输出 的 视频 片段 ， 也 可 以 通过 视频 片段 来 查看 原始 的 视频 数据 。 通 过 该 系统 对 监控 视频 进 
行 处 理 与 检索 ， 可 以 大 大 提高 数据 的 分 析 效 率 、 检 索 效率 以 及 检索 精度 。 














需求 分 析 与 总 体 设 计 


11.2.1 功能 需求 


根据 11.1 节 的 描述 ， 系 统 的 功能 需求 已 经 非常 清楚 , 图 11.1 给 出 了 该 系统 的 核心 用 例 图 ， 明 
确 了 系统 的 主要 功能 需求 。 

从 图 11.1 中 可 以 看 出 , 海量 视频 检索 系统 有 4 个 核心 用 例 : 系统 对 摄像 头 采集 到 的 监控 视频 
进行 视频 预 处 理 ， 将 运动 对 象 存 入 数据 库 的 同时 对 运动 对 象 进行 行为 识别 ， 用 户 根据 需要 进行 视 
频 检索 ， 当 系统 中 所 存在 的 行为 无 法 满足 用 户 的 查询 需求 时 ， 用 户 可 以 通过 规则 创建 来 自 定义 活 
动 。 
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图 11.1 海量 视频 检索 系统 核心 用 例 图 


用 户 与 系统 的 交互 仅 存在 于 视频 检索 的 用 例 中 。 将 监控 视频 文件 的 存储 路 径 告知 系统 后 ， 系 
统 将 会 自动 处 理 指定 路 径 下 的 所 有 视频 文件 ， 其 中 包括 视频 的 预 处 理 、 行 为 识别 这 两 个 用 例 。 这 
两 个 用 例 都 是 系统 的 内 部 用 例 ， 由 视频 文件 触发 ， 不 需要 任何 的 人 工 干预 ， 每 个 用 例 的 处 理 结果 
都 将 存储 于 数据 库 中 。 用 户 对 于 视频 的 检索 就 是 输入 查询 条 件 从 数据 库 中 返回 结果 集 的 过 程 。 


1. 视频 珊 处 理 

在 该 用 例 中 ， 系 统 需要 对 指定 路 径 〈 视 频 采 集 卡 存储 监控 视频 的 路 径 ) 下 的 每 一 个 视频 文件 
进行 处 理 。 针 对 每 一 个 视频 ， 系 统 首先 对 视频 进行 分 析 ， 提 取出 视频 中 的 运动 对 象 后 存 入 数据 库 
中 ， 然 后 对 每 一 个 运动 对 象 的 颜色 、 轮 廊 、 纹 理 等 特征 值 进行 提取 并 存 入 数据 库 中 ， 最 后 需要 对 
视频 的 属性 信息 ， 例 如 时 间 、 帧 率 等 进行 提取 入 库 。 

2. 行为 识别 

在 该 用 例 中 ， 系 统 需要 对 数据 库 中 已 经 存在 的 运动 对 象 进行 行为 识别 ， 并 按 运动 对 象 的 不 同 
行为 生成 相对 应 的 视频 片段 ， 便 于 检索 使 用 。 针 对 每 一 个 运动 对 象 ， 系 统 首先 利用 星 形 肯 架 方 法 
对 运动 对 象 进行 处 理 ， 然 后 提取 不 同 的 角度 特征 值 并 与 已 经 制定 的 规则 进行 对 比 ， 最 后 判断 出 对 
象 的 行为 类 型 后 入 库 ， 并 将 该 行为 所 对 应 的 行为 片段 进行 抽取 生成 。 

3. 视频 检索 

在 该 用 例 中 ， 用 户 可 以 对 自己 需要 的 视频 进行 检索 与 播放 。 首 先 用 户 在 系统 界面 中 输入 一 种 
或 几 种 查询 条 件 〈 时 间 、 地 点 、 人 物 、 行 为 )， 然 后 系统 将 会 在 数据 库 中 按照 一 定 的 次 序 查询 是 否 
存在 满足 条 件 的 视频 ， 最 后 如 果 存 在 满足 条 件 的 视频 将 会 输出 视频 列表 〈 用 户 双击 视频 名 即 可 对 
视频 进行 播放 )， 如 果 不 存在 满足 条 件 的 视频 将 出 现 提示 信息 。 

4. 规则 创建 

该 用 例 中 ， 注 册 用 户 可 以 对 视频 搜索 系统 的 规则 库 进行 充实 ， 创 建新 的 规则 。 通 过 将 组 成 新 
规则 的 一 系列 图 片 ， 按 照 其 中 对 象 行为 发 生 的 先后 顺序 排 好 序 ， 并 放 于 某 -一 文件 夹 下 ， 在 系统 相 
应 界面 上 ， 输 入 正确 的 对 应 的 路 径 ， 而 创建 新 的 规则 。 

在 核心 用 例 图 的 指导 下 ， 设 计 出 每 个 用 例 的 详细 交互 过 程 ， 并 以 表格 形式 进行 详细 的 用 例 描 
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述 , 包括 视频 预 处 理 (如 表 11.1 所 示 )、 行 为 识别 (如 表 11.2 所 示 )、 视 频 检索 (如 表 11.3 所 示 )、 
规则 创建 (如 表 11.4 所 示 )。 


表 11.1 视频 预 处 理 详细 用 例 表格 
用 例 编号 | UC-! 
用 例 名 称 | 视频 预 处 理 
参与 者 海量 视频 检索 系统 管理 员 
描述 该 用 例 描述 了 海量 视频 检索 系统 处 理 指定 的 文件 路 径 下 的 视频 文件 的 过 程 








参与 者 动作 系统 响应 

Step1: 输入 视频 文件 存放 路 径 
用 例 典 型 Step2: 查找 到 指定 路 径 下 的 视频 文件 
事件 流 Step3: 对 单一 视频 进行 运动 对 象 提取 





Step4: 对 运动 对 象 的 特征 值 进行 提取 

Step5: 将 处 理 的 全 部 结果 存 入 数据 库 中 

Step6: 若 文件 夹 中 存在 未 处 理 的 视频 文件 ， 跳 转 至 Step2 
可 选 事件 | Step2， 用 户 输入 的 路 径 下 不 存在 任何 视频 文件 ， 向 用 户 返回 “指定 文件 路 径 有 误 ” 提 示 信 息 。 
流 Step6， 经 过 检查 ， 若 指定 路 径 下 的 文件 均 已 处 理 完毕 ， 则 系统 需要 过 10 分 钟 后 再 次 对 指定 路 径 下 的 
文件 进行 检测 ， 若 连续 两 次 检测 均 为 出 现 新 文件 ， 则 向 用 户 返 回 “监控 停止 运行 ”的 提示 信息 

前 置 条 件 | 指定 路 径 下 已 经 存放 有 至 少 一 个 视频 文件 

后 置 条 件 | 系统 可 以 立即 对 数据 库 中 的 信息 进行 查询 

假设 无 








表 11.2 行为 识别 详细 用 例 表格 
用 例 编号 | UC-2 
用 例 名 称 | 行为 识别 
参与 者 系统 自身 
描述 该 用 例 描述 了 将 数据 库 中 存在 的 运动 对 象 处 理 ， 得 到 对 象 的 特征 值 ， 然 后 与 规则 库 中 的 规则 进行 
匹配 ， 识 别 出 所 对 应 的 行为 的 过 程 
系统 响应 
Step1: 有 新 的 运动 对 象 可 处 理 
Step2: 提取 运动 对 象 并 进行 二 值 化 处 理 
用 例 典型 | Step3: 提取 每 帧 图 片 轮廓 特征 
事件 流 Step4: 利用 星 型 骨架 方法 获取 每 帧 图 片 的 行为 特征 
Step5: 采用 最 长 字符 串 匹 配方 法 ， 将 视频 中 每 帧 图 片 的 行为 特征 值 与 规则 库 中 的 规则 特征 进行 
匹配 ， 识 别 出 视 频 中 包含 的 行为 
Step6: 将 视频 中 识别 出 的 行为 以 及 对 应 的 帧 号 存 入 数据 库 中 ， 以 便于 下 一 步 搜索 
可 选 事件 | Step1， 当 系统 中 无 运动 对 象 可 处 理 时 ， 系 统 不 进行 行为 识别 而 处 于 等 待 状态 ， 直 到 新 的 运动 对 
流 象 到 达 ， 再 触发 系统 进行 行为 识别 。 
Step3， 当 轮廓 模糊 或 者 没有 对 象 轮廓 可 提取 时 ， 则 跳 过 当前 帧 的 轮廓 提取 ， 进 行 下 一 帧 图 片 的 
轮廓 提取 。 
在 关闭 系统 时 ， 系 统 自动 保存 目前 处 理 的 运动 对 象 的 序列 号 ， 在 下 次 启动 时 ， 自 动 按照 上 次 未 处 
理 完 的 地 方 继续 处 理 
前 置 条 件 | 无 
后 置 条 件 | 将 识别 出 的 行为 以 及 对 应 的 帧 号 存 入 数据 库 中 ， 以 便于 用 户 输入 行为 条 件 进行 匹配 搜索 
假设 无 
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表 11.3 ”视频 检索 详细 用 例 表格 
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用 例 编 号 。 | UC3 
用 例 名 称 ”| 检索 对 象 视频 
参与 者 用 户 
描述 该 用 例 描 述 了 普通 用 户 或 注册 用 户 检索 视频 的 过 程 , 用 户 上 传 一 张 对 象 图 像 并 选择 时 间 段 
地 点 、 对 象 行为 ， 系 统 通过 对 上 述 条 件 进行 检索 返回 目标 时 间 、 地 点 、 执 行 特定 行为 的 目标 
对 象 视频 ， 用 户 浏览 检索 结果 
参与 者 动作 系统 响应 
Stepl， 上 传 -- 张 对 象 图 像 
Step2， 选 择 事 件 发 生 时 间 
As Step3， 选择 事件 发 生地 点 
Step4， 选 择 对 象 行为 
Step5， 确 认 操作 成 功 
Step6， 时 间 检索 
用 例 典 型 事 
件 流 
Step9， 基 于 内 容 的 图 像 检索 
Step12， 浏 览 检索 结果 | 
可 选 事件 流 “| Step5， 用 户 上 传 图 像 时 可 能 由于 网 络 超时 等 原因 失败 ， 向 用 户 运 回 “ 图 像 上 传 拓 败 ” 提示 信息 。 
Step1、Step2、Step3、Step4 这 几 个 步 又 都 是 可 选 的 ， 即 所 有 单项 查询 条 件 可 以 为 空 ， 但 是 这 
4 个 步骤 必须 存在 一 个 步 又 ， 也 就 是 必须 有 一 个 查询 条 件 不 为 空 。 
Step11， 经 过 检索 ， 发 现 没有 相关 对 象 视频 命中 ， 向 用 户 返回 “未 找到 相关 视频 ”提示 信息 。 
在 Stepl 之 后 ，Step11 之 前 ， 用 户 可 以 关闭 应 用 程序 或 检索 页 面 ， 系 统 自动 停止 检索 
前 置 条 件 ”| 无 
后 置 条 件 。 ”| 用 户 可 以 对 检索 结果 进行 浏览 
假设 无 
表 11.4 规则 创建 详细 用 例 表格 
规则 创建 
参与 者 用 户 
措 述 该 用 例 描述 了 用 户 通过 输入 一 张 图 片 或 者 一 组 图 片 创建 新 规则 的 过 程 . 用 户 输入 一 张 图 片 或 
者 一 组 图 片 的 路 径 以 及 要 创建 规则 的 规则 名 ， 系 统 通过 用 户 输入 的 路 径 获取 到 图 片 ， 对 每 张 
图 片 进行 处 理 ， 获 取 到 规则 特征 值 ， 然 后 将 规则 的 特征 值 以 及 对 应 的 规则 名 称 存 入 规则 库 ， 
完成 规则 的 创建 过 程 
参与 者 动作 系统 响应 
Step1: 输入 规则 图 像 路 径 及 规则 名 称 
Step2， 确 认 路 公有 效 
i Step3， 图 像 分 析 处 理 ， 得 到 规则 特征 值 
Step4， 规 则 特征 值 及 规则 名 称 入 库 
Step5， 向 用 户 反馈 创建 结果 (创建 成 功 /创建 失败) 
Step6， 继续 下 一步 操 作 
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( 续 表 ) 
可 选 事 件 流 | Step1， 用 户 上 传 图 像 时 可 能 由 于 输入 错误 等 原因 失败 ， 向 用 户 返 回 “ 路 径 输入 有 误 ” 提 示 信 
息 。 
Step3， 在 图 片 处 理 过 程 中 ， 由 于 图 片 模糊 或 者 图 片 无 对 象 造成 无 法 正常 获取 特征 值 ， 向 用 户 
返回 “图 片 不 存在 ”提示 信息 。 
Step4， 在 存 入 规则 库 的 过 程 中 ， 由 于 某 些 意外 原因 无 法 正常 存 入 规则 库 ， 向 用 户 返 回 “ 入 库 
异常 ”提示 信息 。 
在 Stepl 之 后 ，Step5 之 前 ， 用 户 可 以 关闭 应 用 程序 ， 系 统 自动 停止 规则 创建 过 程 
前 置 条 件 普通 用 户 和 注册 用 户 均 可 输入 路 径 名 及 新 规则 的 名 称 


后 置 条 件 用 户 可 以 继续 创建 规则 或 进行 其 他 操作 

















11.2.2 ” 非 功能 需求 


除了 上 述 功能 性 需求 ， 海 量 视频 检索 系统 需要 满足 的 非 功 能 性 需求 主要 包括 性 能 、 可 扩展 性 
和 可 用 性 等 方面 。 

性 能 方面 ， 海 量 视频 检索 系统 向 用 户 提供 信息 检索 业务 ， 用 户 可 以 通过 网 页 对 所 需 信 息 进行 
查询 。 根 据 用 户 调查 ,用户 能 够 容忍 的 等 待 时 间 最 大 为 3.0 秒 ， 最 优 的 等 待 时 间 为 1.0 秒 之 内 。 因 
此 ， 针 对 数据 量 较 大 的 特点 ， 当 查询 时 间 超 过 1.0 秒 时 ， 需 要 适当 地 给 出 一 些 加 载 提示 让 用 户 知 
道 查询 正在 进行 中 ， 并 且 可 以 很 快 看 到 结果 。 

可 扩展 性 是 保证 系统 竞争 力 的 关键 。 海 量 视频 检索 系统 依赖 于 监控 摄像 头 所 拍摄 的 视频 ， 理 
论 上 讲 ， 越 多 的 监控 摄像 头 拍摄 越 多 的 视频 ， 系 统 检索 到 有 用 信息 的 准确 率 就 会 越 高 。 面 对 不 断 
增加 的 摄像 头 ， 系 统 的 平滑 扩展 就 显得 十 分 重要 。 因 此 ， 海 量 视频 检索 系统 应 该 能 够 方便 地 通过 
增加 系统 所 需 处 理 的 文件 夹 的 方式 实现 扩展 ， 即 将 新 增加 的 摄像 头 视频 存储 文件 夹 的 地 址 告知 系 
统 ， 以 此 来 增加 系统 对 新 增 摄像 头 下 视频 的 处 理 与 查询 。 

最 后 ， 对 于 原始 视频 数据 应 该 保证 数据 安全 ， 在 没有 管理 员 权限 的 情况 下 不 能 随意 删除 、 更 
改 原 始 视频 数据 。 


11.2.3 ”核心 业务 处 理 流程 


在 对 系统 用 例 进行 深入 分 析 的 基础 上 ， 本 小 节 给 出 了 视频 预 处 理 、 行 为 识别 、 数 据 检索 和 规 
则 创建 的 详细 业务 处 理 流程 。 下 面 将 分 别 予以 说 明 。 

1. 视 鼎 歼 上 t 理 处 理 流程 

随 着 监控 视频 的 流行 ， 每 天 都 会 产生 海量 的 视频 文件 ， 但 是 用 户 无 法 直接 从 原始 视频 中 得 到 
有 用 信息 。 为 了 得 到 相关 信息 ， 如 果 用 户 对 视频 进行 人 工 浏览 , 一 方面 会 浪费 大 量 的 时 间 与 人 力 ， 
另 一 方面 由 于 视觉 疲劳 的 缘故 用 户 无 法 找到 所 有 的 有 用 信息 。 另 外 ， 视 频 中 我 们 主要 关注 的 是 运 
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动 的 对 象 ， 同 一 对 象 很 可 能 持续 出 现 ， 这 也 降低 了 人 工 浏览 的 效率 。 那 么 ， 现 在 需要 解决 的 问题 
是 ， 如 何在 不 需要 人 工 参与 的 情况 下 仅仅 提取 运动 的 对 象 ， 以 及 如 何 区 分 运动 对 象 。 

在 海量 视频 检索 系统 的 视频 预 处 理 中 解决 了 以 上 的 所 有 问题 。 视 频 预 处 理 的 详细 处 理 流程 如 
图 11.2 所 示 。 











112 视频 预 处 理 流程 


由 于 监控 摄像 头 一 般 为 24 小 时 全 天 候 工作 , 因此 将 会 不 间断 地 产生 待 处 理 的 视频 文件 。 当 扫 
描 发 现 文件 夹 中 目前 不 存在 未 处 理 的 视频 文件 时 ， 系 统 将 会 在 10 分 钟 后 再 次 对 该 文件 夹 进行 扫 
描 ， 当 两 次 扫描 文件 夹 均 未 发 现 新 的 视频 文件 时 ， 则 可 以 判定 监控 摄像 头 停止 工作 ， 系 统 将 会 结 
束 视频 的 处 理 模块 。 如 果 持 续 检测 到 新 文件 的 产生 ， 则 该 用 例 模块 将 会 一 直 循 环 执行 下 去 。 

由 于 监控 摄像 头 一 般 情况 下 均 是 固定 放置 ， 因 此 每 一 个 监控 摄像 头 拍摄 的 视频 中 背景 一 直 是 
固定 不 变 的 。 针 对 监控 视频 的 这 一 特点 ， 系 统 采用 “背景 减 除法 ”对 视频 的 运动 对 象 进行 提取 。 
首先 ， 系 统 需 要 提取 出 视频 的 背景 ; 然后 通过 混合 高 斯 模型 将 背景 图 片 与 视频 帧 进行 对 比 ， 提 取 
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出 运动 对 象 ; 接 下 来 利用 Mean shif 算法 进行 运动 对 象 的 跟踪 ; 最 后 提取 运动 对 象 的 颜色 、 形 状 、 
纹理 等 特征 值 并 将 每 一 个 运动 对 象 的 所 有 信息 存 入 到 后 台数 据 库 中 。 

2. 行为 识别 处 理 流程 

行为 识别 的 过 程 是 将 视频 的 所 有 对 和 象 发 生 的 所 有 动作 ， 通 过 提取 行为 特征 值 ， 并 将 行为 特征 
值 与 规则 库 中 的 规则 进行 匹配 ， 识 别 出 所 有 对 象 所 发 生 的 行为 ， 以 及 对 应 的 帧 号 ， 最 后 将 识别 出 
的 对 象 的 行为 以 及 帧 号 存 入 数据 库 ， 具 体 流 程 如 图 11.3 所 示 。 


3. 视频 检索 处 理 流程 


检索 过 程 的 主要 流程 如 图 11.4 所 示 。 首 先 提 取 用 户 选择 的 事件 时 间 、 地 点 信息 ， 将 这 些 信息 
与 数据 库存 储 的 相关 信息 进行 比 对 ， 得 到 一 个 中 间 结 果 集 ; 接着 提取 图 片 的 特征 值 ， 然 后 与 图 像 
数据 库 中 的 所 有 图 片 特征 值 进 行 检 索 比较 ， 由 于 采用 基于 内 容 的 图 像 检索 (Content-Based Image 
Retrieval， CBIR) 技术 ; 最 后 显示 给 用 户 的 相关 视频 准确 与 否 取决 于 用 户 上 传 图 像 和 数据 库 中 的 
图 像 之 间 的 内 容 相似 度 。 所 谓 图 像 内 容 ， 一 般 指 图 像 本 身 包 含 的 底层 特征 信息 ， 例 如 颜色 、 纹 理 、 
形状 和 空间 关系 等 可 视 特征 。 为 此 ， 系 统 预先 提取 了 数据 库 中 所 有 图 像 的 内 容 特 征 ， 存 入 数据 库 
并 进行 索引 。 这 是 一 个 特征 值 相似 度 计算 的 过 程 : 当 系 统 获取 到 用 户 上 传 的 图 片 时， 同样 会 首先 
提取 该 图 片 的 特征 值 ， 然 后 按照 一 定 的 CBIR 相似 度 对 比 算法 进行 相似 度 计算 ， 并 对 最 终 的 相似 
度 排序 。 

最 后 再 提取 对 象 执行 的 行为 信息 , 将 它 与 数据 库 中 存储 的 行为 信息 进行 比 对 , 返回 特定 时 间 、 
特定 地 点 、 执 行 特定 动作 的 目标 人 物 视 频 。 检 索 结果 会 按照 与 上 传 的 图 片 特 征 相似 度 由 高 到 低 的 
排序 返回 给 用 户 ， 为 了 过 滤 相 似 度 较 低 的 图 片 条 目 ， 系 统 设 置 了 一 个 相似 度 阔 值 ， 当 相似 度 低 于 
该 阅 值 时 ， 系 统 认为 这 些 条 目 与 用 户 上 传 的 样本 图 片 并 不 相似 ， 而 相似 度 高 于 该 阔 值 的 所 有 图 片 
构成 命中 结果 集 。 需 要 读者 明确 的 一 点 是 ， 一 个 对 象 在 一 个 时 间 段 内 执行 某 行为 的 视频 片段 可 能 
是 多 个 。 例 如 ， 张 三 在 中 心 广场 某 日 14:00~14:30 这 半 小 时 的 时 间 里 ， 他 先 跑 了 10 分 钟 ， 接 着 走 
了 10 分 钟 ， 接 着 又 跑 了 10 分 钟 。 如 果 用 户 上 传 张 三 的 图 片 ， 时 间 选 定 为 14:00~14:30， 地 点 选 定 
为 中 心 广场 ， 对 象 执行 行为 选 定 为 跑 ， 则 最 终 会 给 用 户 返 回 14:00~14:10 以 及 14:20~14:30 这 两 个 
时 间 段 内 的 视频 。 

用 户 在 这 些 相关 结果 中 选择 与 自己 上 传 的 人 物 对 象 图 片 相 似 的 视频 片段 进行 观看 ， 系 统 在 提 
供 执行 特定 行为 的 视频 片段 之 外 ， 用 户 还 可 以 根据 需要 观看 原始 视频 数据 作为 参考 。 当 用 户 得 到 
满意 的 结果 后 可 以 接着 对 自己 感 兴趣 的 内 容 进行 查询 。 如 果 系 统 经 检索 后 ， 数 据 库 中 图 片 特征 值 
与 用 户 上 传 图 片 的 特征 值 无 法 匹配 , 即 该 图 片 与 数据 库 中 所 有 图 片 的 相似 度 都 低 于 相似 度 阔 值 时 ， 
系统 则 提示 用 户 没 有 找到 结果 ， 建 议 用 户 重新 拍摄 图 片 并 上 传 。 











433 


实战 大 数据 





获取 要 处 理 的 视频 














> 
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(人 t 旬 的 行为 特征 信 与 规则 特征 信 进 行 匹配 识 别 行为 ) 
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将 视频 中 识别 出 的 行为 及 对 应 的 帧 号 入 库 
(# *) 提示 未 命中 返回 相关 视频 





























图 11.3 行为 识别 处 理 流程 图 114 视频 检索 处 理 流程 
4. 规则 创建 处 理 流程 


需要 创建 一 个 新 的 规则 时 ， 用 户 只 要 单 击 页 面 中 的 “创建 规则 ”按钮 ， 根 据 提示 输入 相关 信 
息 就 可 以 创建 规则 。 其 中 已 经 存在 的 规则 不 可 以 重复 创建 ， 新 的 规则 用 户 通过 自己 输入 组 成 规则 
的 图 片 的 路 径 进行 创建 。 组 成 新 规则 的 图 片 必须 是 按照 图 片 中 对 象 行为 发 生 的 先后 顺序 组 合 。 组 
成 新 规则 的 图 片 可 以 是 一 组 对 象 的 行为 序列 ， 也 可 以 是 几 组 对 象 的 行为 序列 。 对 于 几 组 对 象 的 行 
为 序列 ， 采 取 的 策略 是 ， 将 每 组 对 象 求 出 的 规则 特征 值 ， 求 平均 值 后 得 到 最 后 的 规则 特征 值 ， 生 
成 新 的 规则 特征 值 需 要 经 过 验证 后 才 可 以 存 入 规则 库 中 使 用 。 图 11.5 为 规则 创建 的 处 理 流程 图 。 
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《 必 关 狗 入 组 成 规则 的 图 片 中 和 以 及 要 创建 的 规则 的 名 称 ) 





Yes 


利用 星 型 骨架 方法 获取 规则 特征 值 


规则 特征 值 以 及 名 称 入 库 





失败 原因 反馈 给 用 户 


图 11.5 规则 创建 处 理 流程 


11.2.4 总 体 设计 


图 11.6 为 基于 内 容 的 海量 监控 视频 检索 系统 的 上 下 文 数据 流 图 , 该 图 确定 了 基于 内 容 的 海量 
监控 视频 检索 系统 全 局 的 系统 边界 ， 显 示 了 该 系统 和 系统 外 部 实体 (如 用 户 和 其 他 系统 ) 之 间 的 
边界 和 接口 。 





视频 数据 


基于 内 容 的 海量 
视频 检索 系统 










系统 更 新 命令 








图 11.6 海量 监控 视频 检索 系统 的 上 下 文 数据 流 图 
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用 户 是 系统 交互 的 核心 对 象 ， 具 有 提交 查询 请 求 的 权限 ， 能 够 向 系统 提交 对 象 图 像 、 事 件 发 
生 时 间 、 地 点 以 及 该 对 象 执行 的 行为 进行 检索 。 系 统 响 应 用 户 查 询 请 求 ， 并 返回 查询 到 的 相关 视 
频 片段 。 

系统 管理 员 角 色 会 管理 基于 内 容 的 海量 监控 视频 检索 系统 ， 并 对 系统 发 出 更 新 命令 ， 这 里 能 
更 新 可 能 包括 系统 本 身 功能 的 更 新 和 数据 的 更 新 两 种 。 另 外 ， 管 理 员 角色 还 会 接受 来 自 系统 的 
行 状态 报告 以 及 各 种 统计 数据 报告 。 

基于 内 容 的 海量 监控 视频 检索 系统 的 视频 数据 来 源 于 与 电脑 直接 连接 的 监控 摄像 关 ， 基 于 内 
容 的 海量 监控 视频 检索 系统 会 定期 读 取 存储 在 电脑 中 特定 文件 夹 中 的 原始 视频 数据 ， 并 进行 数据 
更 新 ， 保 证 了 用 户 查询 结果 的 实时 性 、 准 确 性 以 及 系统 数据 的 完备 性 。 

基于 上 述 详细 的 需求 分 析 ， 对 系统 进行 了 总 体 设计 , 图 11.7 给 出 了 基于 内 容 的 海量 监控 视频 
检索 系统 的 总 体 架构 图 ， 从 图 中 可 知 图 像 百 科 系 统 自 下 而 上 可 以 分 为 7 个 主要 层次 。 


结果 呈现 与 用 户 操作 层 
业务 逻辑 为 识别 外 


到 研 慑 :图像 处 现 从 法、 人 体 行 为 识 刚 
法 、 条 件 信息 匹配 算法 





i 到 








计算 模型 层 


Map/Reduce 
数据 库 层 : HBase 
分 布 式 文件 系统 层 : HDFS 
Sa 





硬件 与 虚拟 化 层 ， 服 务 器 集群 





11.7 海量 监控 视频 检索 系统 总 体 架构 


1. 硬件 与 虚拟 化 层 : 服务 器 集群 

该 层 的 主要 作用 是 为 基于 内 容 的 海量 视频 检索 系统 提供 底层 的 硬件 与 操作 系统 的 基础 环境 支 
持 。 基 于 内 容 的 海量 视频 检索 系统 底层 采用 云 计 算 技术 ， 整 个 计算 环境 构建 在 一 个 采用 了 虚拟 化 
技术 的 PC 机 服务 器 集群 之 上 。 

2. 分 布 式 文件 系统 层 

该 层 的 主要 作用 是 为 基于 内 容 的 海量 视频 检索 系统 提供 底层 的 存储 平台 。 分 布 式 文件 系统 层 
位 于 整个 系统 的 底层 ， 它 向 计算 模型 层 、 数 据 块 层 以 及 Web 访问 提供 统一 的 访 存 接口 ， 其 他 模块 
通过 接口 的 调用 可 以 很 方便 地 在 分 布 式 文件 系统 中 存 取 数 据 。 同 时 ， 该 层 的 副本 策略 、 负 载 均衡 
等 机 制 也 保证 了 存储 平台 的 可 用 性 和 可 靠 性 ， 为 整个 系统 提供 稳定 的 可 依赖 的 存储 空间 。 
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3. 数据 库 层 


该 层 的 主要 作用 是 为 基于 内 容 的 海量 视频 检索 系统 提供 数据 存储 支持 ， 能 够 向 业务 逻辑 层 和 
计算 模型 层 提供 数据 持久 化 功能 ， 并 通过 合理 的 主键 设置 和 索引 机 制 ， 向 上 层 提 供 高 效 的 数据 访 
问 能 力 。 基 于 内 容 的 海量 视频 检索 系统 采用 HBase 作为 数据 库 ， 能 够 满足 系统 高 并 发 、 高 可 扩展 
性 的 需求 。 基 于 内 容 的 海量 视频 检索 系统 的 图 像 特 征 、 时 间 信息 、 地 点 信息 、 对 象 行为 信息 的 数 
据 都 存储 在 HBase 中 。 


4. 计算 模型 层 


该 层 的 主要 作用 是 当 基 于 内 容 的 海量 视频 检索 系统 需要 进行 海量 数据 处 理 时 ， 可 以 在 大 量 普 
通 配 置 的 计算 机 上 实现 并 行 处 理 。 对 海量 的 原始 视频 进行 预 处 理 ， 包 括 将 视频 处 理 成 海量 对 象 图 
片 ， 对 图 片 特征 值 进行 抽取 及 对 人 体 行为 特征 进行 识别 时 ， 这 些 海 量 数 据 的 处 理 都 要 借助 于 
MapReduce 计算 模型 。MapReduce 计算 模型 封装 了 并 行 处 理 、 容 错 处 理 、 本 地 化 计算 、 负 载 均衡 
等 细节 ， 还 提供 了 简单 而 强大 的 接口 。 通 过 这 个 接口 ， 可 以 把 大 数据 量 的 计算 自动 地 并 发 和 分 布 
执行 ， 使 之 变 得 非常 容易 。 这 里 需要 注意 的 是 ,考虑 到 MapReduce 分 布 计算 模型 并 不 适合 于 需要 
即时 响应 的 计算 过 程 。 用 户 上 传 的 图 片 与 数据 库 中 特征 值 进行 匹配 这 一 过 程 并 不 适用 该 计算 模型 。 

5. 业务 逻辑 层 

该 层 的 主要 作用 是 进行 与 图 像 处 理 、 人 体 行 为 识别 、 时 间 和 地 点 信息 匹配 相关 的 操作 ， 调 用 
下 层 的 计算 模型 层 进行 数据 处 理 ， 并 通过 数据 库 层 实现 对 数据 的 读 写 操作 。 有 具体 来 说 ， 该 层 提供 
图 像 特 征 抽取 、 图 像 匹 配 、 人 体 行为 识别 及 条 件 信息 匹配 、 数 据 入 库 等 业务 。 特 征 抽 取 是 通过 调 
用 计算 模型 层 的 MapReduce 分 布 计算 模型 , 将 对 本 地 监控 视频 处 理 后 获得 的 关键 帧 图 片 底层 特征 
在 各 个 计算 节点 抽取 并 存 入 数据 库 层 中 ; 人 体 行为 识别 是 通过 调用 计算 模型 层 的 MapReduce 分 布 
计算 模型 ， 对 从 原始 视频 中 提取 出 来 的 人 体 对 象 在 各 个 节点 使 用 人 体 行为 识别 算法 进行 处 理 ， 并 
将 中 间 结 果 移 交 给 系统 其 他 模块 ， 最 后 将 识别 出 来 的 人 体 行为 视频 片段 存 入 数据 库 层 中 ， 条 件 信 
息 匹 配 则 是 从 用 户 操作 层 获 取 用 户 提 交 的 时 间 、 地 点 、 人 体 行为 等 特征 ， 并 与 数据 库 层 中 的 相关 
数据 进行 匹配 。 


6. 结果 呈现 与 用 户 操作 层 


该 层 的 主要 作用 是 接受 用 户 对 视频 库 中 的 数据 进行 查询 的 操作 请 求 ， 对 用 户 身份 和 操作 的 合 
法 性 进行 验证 ， 并 将 请 求 转发 到 业务 逻辑 层 。 基 于 内 容 的 海量 视频 检索 系统 支持 浏览 器 网 页 方式 
(例如 正 、Firefox、Chrome 等 ) 的 请 求 发 送 与 结果 呈现 。 基 于 内 容 的 海量 视频 检索 系统 使 用 Web 
服务 器 接受 请 求 ， 并 进行 操作 的 验证 与 处 理 ， 通 过 动态 页 面 生成 技术 向 用 户 呈 现 合适 的 结果 。 

7. 分 布 式 系统 管理 层 

该 层 的 主要 作用 是 对 整个 系统 的 服务 器 集群 进行 管理 ， 同 时 提供 全 局 配置 信息 管理 功能 。 


ZooKeeper 的 集群 机 器 监控 能 够 对 集群 中 机 器 的 变化 做 出 快速 响应 ， 从 而 提供 高 可 用 性 服务 。 在 
基于 内 容 的 海量 视频 检索 系统 中 ， 部 署 在 多 个 机 器 上 的 应 用 程序 需要 感知 整个 集群 的 状态 ， 以 及 
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某 个 机 器 的 信息 ， 并 在 机 器 状态 变化 时 能 触发 自己 的 事件 处 理 程序 ， 所 以 在 应 用 程序 中 都 有 一 个 
集群 管理 器 的 实例 ， 应 用 程序 通过 集群 管理 器 访问 /管理 集群 。 集群 间 的 公有 配置 信息 需要 集中 管 
理 ， 这 一 点 通过 ZooKeeper 的 配置 管理 功能 实现 。 将 公共 的 配置 信息 放 到 ZooKeeper 服务 器 的 特 
定 目录 下 作为 共享 配置 ， 一 旦 配置 发 生变 化 ， 每 台 应 用 服务 器 就 会 收 到 ZooKeeper 的 通知 ， 获 取 
最 新 配置 信息 。 








相关 技术 简介 


上 一 小 节 对 海量 监控 视频 检索 系统 的 总 体 设计 以 及 各 用 例 的 处 理 流 程 都 做 了 详细 的 介绍 。 本 
小 节 将 对 系统 实现 中 涉及 的 相关 技术 进行 简要 介绍 。 


11.3.1 MPEG-7 与 OpenCV 简介 


1. MPEG-7 简介 


多 媒体 内 容 描述 接口 (Multimedia Content Description Interface )， 简 称 为 MPEG-7， 是 运动 图 
像 专家 组 (Moving Picture Experts Group ) 提出 的 用 来 描述 多 媒体 内 容 的 标准 ， 其 目标 是 创建 一 种 
描述 多 媒体 内 容 数据 的 标准 , 满足 实时 、 非 实时 和 推 - 拉 应 用 的 需求 , 以 及 支持 数据 管理 的 灵活 性 、 
数据 资源 的 全 球 化 和 互 操作 性 。 这 种 描述 能 对 信息 的 内 涵 进 行 某 种 程度 上 的 解释 ， 而 且 能 被 计算 
机 或 其 他 信息 设备 传递 或 访问 。 

MPEG-7 支持 多 种 音频 和 视觉 的 描述 ,包括 自由 文本 、N 维 时 空 结构 、 统 计 信 息 、 客 观 属性 、 
主观 属性 、 生 产 属性 和 组 合 信息 。 对 于 视觉 信息 ， 描 述 将 包括 颜色 、 视 觉 对 象 、 纹 理 、 草 图 、 形 
状 、 体 积 、 空 间 关 系 、 运 动 及 变形 等 。MPEG 并 不 针对 应 用 标准 化 ， 但 可 利用 应 用 来 理解 需求 并 
评价 技术 ， 它 不 针对 特定 的 应 用 领域 ， 而 是 支持 尽 可 能 广泛 的 应 用 领域 ， 就 目前 来 看 ， 适 合 应 用 
MPEG-7 的 领域 包括 : 基于 内 容 的 多 媒体 搜索 〈 包 括 图 像 搜索 、 哼 唱 搜索 、 语 音 搜索 等 ) 、 图 像 
理解 以 及 其 他 需要 使 用 大 量 多 媒体 特征 的 应 用 。 

MPEG-7 实质 是 对 信息 进行 描述 的 标准 。 如 图 11.8 是 MPEG-7 处 理 链 的 抽象 示意 图 。 它 包括 
特征 提取 〈Feature Extraction) 、 标 准 描述 〈Standard Description) 和 搜索 引擎 (Search Engine) 。 
MPEG-7 的 前 端 是 特征 提取 ， 也 就 是 说 MPEG-7 是 建立 在 特征 提取 基础 上 的 ， 它 只 对 已 经 过 处 理 
得 到 的 特征 信息 进行 描述 ， 而 并 不 关心 这 些 特征 是 如 何 得 到 的 。MPEG-7 的 后 端 是 搜索 引擎 ， 它 
利用 根据 MPEG-7 标准 描述 的 特征 内 容 来 进行 检索 得 到 检索 结果 集 , 即 搜索 引擎 是 对 MPEG-7 描 
述 内 容 的 具体 实现 及 应 用 。 由 此 可 知 ，MPEG-7 只 是 在 特征 提取 和 信息 检索 之 间 提 供 标准 接口 ， 
本 身 并 不 直接 参与 这 两 者 的 实现 ， 而 只 在 基于 内 容 的 检索 中 起 着 连接 两 者 并 提供 接口 进行 实现 的 
作用 。 
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特征 提取 搜索 引擎 




















MPEG-7 的 范围 4 


图 11.8 ”MPEG-7 处 理 链 的 抽象 示意 图 


MPEG-7 可 以 处 理 的 对 象 包括 静止 图 像 、 图 片 、 三 维 模型 、 语 音 、 活 动 图 像 以 及 这 些 媒 体 的 
综合 信息 ， 对 于 不 同 的 数据 类 型 ，MPEG-7 对 应 有 不 同 的 标准 ， 即 D 和 DS， 所 以 MPEG-7 描述 
与 被 描述 内 容 的 表达 无 关 。 

MPEG-7 的 构成 要 素 包括 : 描述 工具 、 描 述 定 义 语 言 以 及 系统 工具 。 描 述 工 具 包 括 一 组 描述 
符 D 〈Descriptor) 和 描述 方案 DS (Description Schemes) 。 描 述 符 是 指 用 来 定义 和 表达 实体 某 
一 方面 特征 的 句法 或 语法 ， 描 述 方案 由 一 个 或 多 个 D 和 DS 构成 ，DS 规定 了 它们 相互 关系 的 结 
构 和 语法 , 描述 定义 语言 DDL (Description Definition Language) 是 用 来 指定 描述 方案 的 一 种 语言 ， 
它 是 一 种 模式 化 语言 ， 是 对 音 视频 数据 建 模 结果 的 一 种 表征 。DDL 语言 是 MPEG-7 的 一 个 核心 部 
分 ,提供 了 基本 的 多 媒体 描述 的 方法 ， 使 用 户 能 够 创建 自己 的 DS 和 D。DDL 语言 发 展 兼顾 和 吸 
收 了 现 有 的 各 种 媒体 描述 语言 的 特点 ， 其 中 对 其 影响 最 大 的 是 XML Schema 语言 和 资源 描述 框架 
(RDF) 。DDL 可 分 为 几 个 部 分 : 


。 XML Schema 结构 语言 部 分 ， 包 括 定义 和 声明 以 外 的 XML 内 容 、 简 单 类 型 定义 、 复 杂 类 
型 定义 、 属 性 声明 和 元 素 声明 ; 属性 组 定义 、 约 束 身 份 定 义 、 组 定义 和 符号 定义 : 注释 、 
通配符 等 。 

。 XML Schema 数据 类 型 语言 部 分 ， 提 供 了 若干 内 置 的 数据 原型 和 派生 类 型 ， 以 及 用 户 自 定 
义 数据 类 型 机 制 。 

@ 特殊 扩展 部 分 ， 对 XML Schema 的 扩展 主要 表现 在 对 数据 类 型 的 添加 和 扩展 ， 增 加 了 数 
组 矩阵 类 和 时 间 类 。 系 统 工具 则 用 来 支持 多 路 描述 、 同 步 问题 、 传 输 机 理 、 文 件 格 式 等 。 























2. OpenCV 简介 


OpenCV (Open Source Computer Vision Library) 是 由 Intel 公司 资助 的 开源 的 并 且 可 跨 平台 
的 计算 机 视觉 库 ， 可 以 运行 在 Linux、Windows 和 Mac OS 操作 系统 上 。 它 轻 量 级 而 且 高 效 一 一 
由 一 系列 C 函数 和 C++ 类 构成 ， 同 时 提供 了 Python、Ruby、MATLAB 等 语言 的 接口 ， 实 现 了 图 
像 处 理 和 计算 机 视觉 方面 的 很 多 通用 算法 。OpenCV 包括 300 多 个 CC++ 函 数 的 跨 平台 的 中 、 高 
层 API， 它 不 依赖 于 其 他 的 外 部 库 ， 但 是 也 可 以 使 用 某 些 外 部 库 。OpenCV 1.x 版 本 中 提供 的 主要 
是 C 语 言 的 接口 在 新 发 布 OpenCV 2.x 版 本 中 提供 了 大 量 算法 的 C++ 接口 下 面 将 主要 对 OpenCV 
2.x 版 本 进行 简要 介绍 。OpenCV 2.x 版 本 主要 由 以 下 几 个 模块 组 成 。 


e core: 此 模块 内 对 OpenCV 的 基本 数据 结构 进行 了 定义 ， 其 中 包含 矩阵 类 型 Mat (此 类 型 
代替 了 OpenCV 1.x 版 本 中 图 像 类 型 IplImage 以 及 短 阵 类 型 CvMat ) 以 及 可 以 用 于 其 他 模 
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块 的 基本 功能 。 

。 imgproc 此 模块 专门 用 于 图 像 处 理 ， 包 含 线性 与 非 线 性 的 图 像 滤波 器 、 图 像 的 几何 变换 、 
闫 色 空 间 转换 、 直 方 图 等 。 本 系统 中 对 图 像 的 平滑 处 理 、 边 缘 检 测 、 轮 廊 提 取 、 颜 色 直 方 
图 等 基本 图 像 操作 函数 均 出 于 此 模块 。 
video: 此 模块 主要 用 于 视频 分 析 ， 包 含 运 动 估计 、 背 景 减 除 、 目 标 跟踪 等 。 
calib3d: 此 模块 的 主要 功能 是 对 元 素 的 3D 重建 以 及 相机 定 标 等 。 
features2d: 此 模块 用 于 对 特征 点 进行 检测 、 描 述 以 及 匹配 。 
objdetect ”此 模块 的 主要 功能 为 对 象 检 测 以 及 制作 样本 库 ( 例如 面部 、 眼 睛 、 人 、 车 等 ) 。 
highgui: 此 模块 可 以 容易 地 实现 视频 真 捕 捉 、 图 像 与 视频 的 编码 以 及 简单 的 界面 。 
gpu: 此 模块 实现 了 来 自 与 不 同 OpenCV 模块 的 GPU 加 速算 法 。 
ml: 此 模块 为 一 个 机 器 学 习 模块 ， 提供 了 强大 的 机 器 学 习 类 来 实现 数据 的 统计 划分 、 聚 类 
等 功能 。 


以 上 即 为 组 成 OpenCV 2.x 版 本 的 主要 模块 ， 还 有 一 些 辅助 性 模块 ， 在 此 不 再 袭 述 。 表 11.5 
介绍 了 本 系统 所 用 到 的 部 分 OpenCV 库 函 数 。 


表 11.5 系统 中 用 到 的 部 分 OpenCV 库 函 数 





函数 名 函数 功能 

Canny 边缘 提取 函数 采用 Canny 算法 寻找 输入 图 片 的 边缘 并 在 输出 图 像 中 标志 这 些 边缘 
(CvCanny) 

FindCounters 轮廓 提取 函数 在 二 值 图 像 中 寻找 轮廓 ， 并 返回 轮廓 的 数目 

(cvFindCountours) 

Moment 形状 提取 函数 计算 最 高 达 三 阶 的 空间 和 中 心 矩 ， 并 且 将 结果 存在 结构 moments 中 
(cyvMoments) 

CreateHist 颜色 提取 函数 此 函数 提取 图 片 的 颜色 特征 ， 创 建 一 个 指定 尺寸 的 直方 图 ， 并 返回 创 
(CvHistogram) 建 的 直方 图 的 指针 








11.3.2 ”运动 对 象 提取 

本 系统 中 运动 对 象 提取 可 以 分 为 运动 目标 检测 与 运动 目标 跟踪 两 部 分 。 运 动 目标 检测 可 以 从 
视频 中 检测 到 运动 的 对 象 ， 运 动 目标 跟踪 可 以 用 来 记录 运动 对 象 的 运动 轨迹 等 信息 。 下 面 将 分 别 
对 两 种 技术 进行 介绍 。 

1. 运动 目标 检测 

运动 目标 检测 技术 是 智能 监控 系统 的 首要 问题 ， 与 后 续 的 目标 跟踪 、 行 为 识别 等 有 着 密切 的 
关系 。 运 动 目标 检测 就 是 从 图 像 中 将 感 兴趣 区 域 从 背景 图 像 中 提取 出 来 ， 这 是 视频 处 理 与 编码 的 
关键 。 换 句 话说， 运动 目标 检测 技术 就 是 从 视频 图 像 序列 中 将 运动 变化 的 区 域 一 帧 一 帧 地 检测 出 
来 ， 通 过 去 除 背 景 图 像 的 影响 从 而 找到 感 兴趣 的 目标 或 者 前 景 。 根 据 背 景 是 否 固定 ， 运 动 目标 检 
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测 可 以 分 为 静止 背景 下 的 目标 检测 与 活动 背景 下 的 目标 检测 。 由 于 监控 摄像 头 一 般 情况 下 是 放置 
在 一 个 固定 的 位 置 上 ， 排 除外 界 光 线 变化 、 摄 像 头 轻微 抖动 等 因素 ， 监 控 视频 中 的 目标 检测 是 典 
型 的 静止 背景 下 的 目标 检测 。 目 前 常用 的 静止 背景 下 检测 运动 目标 的 算法 主要 分 为 三 类 : 光 流 法 、 
帧 差 法 和 背景 减 除法 。 

(1) 光 流 法 

交流 法 是 一 种 以 灰 度 梯度 基本 不 变 或 亮度 恒定 的 约束 假设 为 基础 的 有 效 的 目标 检测 方法 。 光 
流 场 是 空间 运动 物体 被 观测 面 上 的 像素 点 运动 产生 的 瞬间 速度 场 ， 包 含 物体 表面 结构 和 动态 行为 
的 重要 信息 。 这 种 方法 的 基本 原理 是 : 对 图 像 中 的 每 一 个 像素 点 都 赋予 一 个 速度 矢量 ， 从 而 形成 
一 个 图 像 光 流 场 ; 在 运动 的 某 个 特定 时 刻 ， 将 图 像 上 的 像素 点 投影 到 三 维 物体 上 的 点 ;然后 根据 
每 个 像素 点 的 速度 矢量 特征 来 动态 分 析 图 像 ， 如 果 图 像 中 不 存在 运动 目标 ， 那 么 整个 图 像 区域 的 
光 流 矢量 是 连续 变化 的 ， 如 果 存在 目标 相对 图 像 背景 运动 ， 那 么 运动 目标 所 形成 的 速度 矢量 将 不 
同 于 邻 域 的 背景 速度 矢量 ， 从 而 检测 出 运动 目标 的 具体 位 置 和 相关 运动 参数 。 

光 流 法 不 需要 知道 关于 图 像 背景 的 任何 信息 ， 不 仅 适 用 于 静止 背景 和 动态 背景 下 的 视频 运动 
目标 检测 ， 甚 至 可 直接 用 于 运动 目标 的 跟踪 。 但 是 ， 在 实际 应 用 中 ， 由 于 光源 、 阴 影 、 噪 声 等 原 
因 ， 将 会 导致 光 流 法 得 到 的 结果 并 不 十 分 精确 ， 并 且 光 流 法 存在 公式 复杂 、 计 算 量 大 等 缺点 ， 因 
此 实际 应 用 中 不 常 使 用 。 





(2) 帧 差 法 
帧 差 法 利用 图 像 序列 中 相 邻 两 帧 或 三 帧 图 像 中 的 对 应 像素 值 相 减 ， 然 后 取 差 值 图 像 进行 闪 值 
化 处 理 ， 提 取出 图 像 中 的 运动 区 域 ， 基 本 过 程 如 图 11.9 所 示 。 





图 11.9 帧 差 法 的 基本 原理 图 
选取 任意 连续 两 由 图像 Au, 切 和 大 人 切 ， 它 们 的 差分 图 像 Di(x,y) 为 : 


D(x, 3) f(T) ia)| 式 (11-1) 
其 中 (x,y) 表示 图 像 中 像素 点 的 空间 坐标 。 将 差分 图 像 和 一 个 阅 值 T 进行 比较 ， 通 过 比较 判 
定 图 像 中 像素 点 是 否 为 运动 目标 的 像素 点 ， 从 而 提取 运动 对 象 P(x,y) 。 
ac- J D(x,y)<T 起 Ki 
ackground, D(x,y) 三 T 


帧 差 法 原理 简单 ， 程 序 设计 复杂 度 低 ， 易 于 实现 。 同 时 ， 帧 差 法 能 够 较 强 地 适应 动态 环境 的 
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变化 ， 有 效 地 去 除 由 于 噪声 、 光 线 等 因素 产生 的 影响 。 但 是 该 方法 的 缺点 是 无 法 完全 提取 出 运动 
目标 的 所 有 像素 点 , 无 法 得 到 运动 目标 的 完整 轮廓 , 检测 结果 中 运动 目标 容易 出 现 “ 空 洞 ”" 和 “ 重 
影 ”现象 。 因 此 ， 检 测 出 的 运动 目标 并 不 准确 ， 甚 至 对 于 运动 缓慢 的 物体 无 法 检测 出 来 。 
(3) 背景 减 除法 

背景 减 除法 是 目前 运动 目标 检测 中 最 常用 的 一 种 方法 。 它 的 基本 思想 是 : 首先 通过 一 定 的 背 
景 建 模 方法 得 到 图 像 的 背景 模型 B(x,y) ， 然 后 对 于 视频 序列 中 的 每 一 帧 图 像 f(x,y) 都 与 背景 模 
型 进行 差分 ， 对 得 到 的 差分 图 像 D, (x,y) 进行 二 值 化 处 理 ; 最 后 当 差分 图 像 中 的 某 个 像素 点 大 于 
闵 值 T 时 ， 就 判定 该 点 为 运动 目标 的 像素 点 ， 否 则 为 背景 像素 点 。 用 公式 表示 如 下 : 





D(x,p) fy) -B(x,y)| 式 (11-3) 
1 foreground, D(x,y)<T 起 HI 
h(x»)= 
0 background, D(x,y)=T 


背景 减 除 法 相 比 于 其 他 方法 能 够 提供 最 完全 的 特征 数据 信息 ， 同 时 具有 复杂 度 低 、 实 时 性 好 
等 特点 。 但 在 实际 应 用 中 ， 采 集 到 的 背景 图 片 随 着 时 间 的 推移 ， 对 外 界 光线 、 阴 影 等 因素 的 影响 
比较 敏感 ， 从 而 影响 目标 检测 的 准确 性 。 因 此 ,基于 背景 减 除 法 的 关键 在 于 寻找 理想 的 背景 模型 ， 
并 对 其 进行 初始 化 和 实时 更 新 ， 以 适应 实时 环境 的 变化 。 

以 上 为 3 种 常用 的 运动 目标 检测 方法 的 简单 介绍 ， 分 别 列 出 了 各 自 的 优 缺 点 。 本 系统 采用 最 
常用 的 背景 减 除法 进行 运动 目标 的 检测 。 

2. 运动 目标 跟踪 

在 监控 视频 领域 ， 运 动 目标 跟踪 是 后 续 进行 目标 识别 、 行 为 理解 与 描述 等 高 级 处 理 的 又 一 关 
键 。 运 动 目标 跟踪 就 是 对 运动 对 象 进行 连续 的 跟踪 以 便 确定 其 运动 轨迹 的 过 程 。 目 前 比较 常用 的 
视频 运动 目标 跟踪 算法 可 以 分 为 以 下 几 类 : 基于 3D 模型 的 跟踪 算法 、 基 于 区 域 匹配 的 跟踪 算法 、 
基于 活动 轮廓 的 跟踪 算法 以 及 基于 特征 匹配 的 跟踪 算法 。 


(1) 基于 3D 模型 的 跟踪 算法 

该 方法 的 主要 思想 是 先 根据 经 验 得 到 运动 目标 的 三 维 结构 和 运动 模型 ， 再 从 实际 的 图 像 序列 
中 确定 其 三 维 模型 参数 ， 从 而 确定 它 瞬 时 的 运动 参数 来 实现 跟踪 。 基 于 3D 模型 跟踪 算法 的 优点 
在 于 能 够 精确 地 邱 系 运动 目标 的 三 维 运动 轨 迹 ， 但 是 该 方法 的 运动 分 析 精 度 受 限于 几何 模型 的 精 
度 。 由 于 实际 应 用 中 很 难 获得 所 有 运动 目标 的 精确 几何 模型 ， 因 此 导致 该 方法 无 法 得 到 广泛 的 应 
用 ， 并 且 该 方法 的 计算 工作 量 大 ， 实 用 性 差 。 


(2) 基于 区 域 匹配 的 跟踪 算法 
该 方法 根据 图 像 中 运动 目标 的 连通 区 域 的 共有 特征 信息 来 进行 跟踪 。 该 方法 的 主要 思想 是 将 
目标 图 像 在 当前 帧 上 以 不 同 的 偏 移 值 位 移 ， 然 后 根据 一 定 的 相似 度量 准则 对 每 一 个 偏 移 值 下 的 重 
登 的 两 幅 图 像 、 目 标 图 像 以 及 与 目标 图 像 同样 大 小 的 当前 帧 图 像 进行 相关 处 理 ， 根 据 判 别 准 则 与 
相关 处 理 结果 确定 目标 在 实时 图 像 中 的 位 置 ， 即 相似 度 最 大 所 对 应 的 位 置 就 是 运动 目标 位 置 。 
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基于 区 域 匹配 的 跟踪 方法 实现 简单 ， 可 以 应 用 于 当 图 像 中 目标 特征 不 明显 且 其 他 方法 均 失 效 
的 场合 。 但 是 ， 一 旦 连续 视频 帧 图 像 间 光 强 突变 或 者 噪声 较 大 时 ， 都 会 对 结果 造成 很 大 影响 。 


(3) 基于 活动 轮廓 的 跟踪 算法 

该 方法 的 基本 思想 是 将 前 一 帧 提取 的 运动 目标 辩解 轮廓 作为 轮廓 模版 ， 在 后 续 帧 的 二 值 边 缘 
图 像 中 跟踪 目标 轮廓 ， 而 且 该 轮廓 可 以 自动 连续 地 更 新 。Snake 主动 轮廓 跟踪 算法 是 近 几 年 发 展 
较 快 的 一 种 基于 轮廓 匹配 的 跟踪 算法 。 该 算法 利用 感 兴趣 目标 轮廓 的 全 局 信息 ， 得 到 一 条 封闭 的 
轮廓 曲线 ， 它 被 广泛 应 用 于 图 像 分 割 和 分 类 、 边 缘 提 取 、 运 动 跟踪 等 多 个 领域 。 但 是 该 算法 也 存 
在 许多 不 足 ， 例 如 初始 化 轮廓 时 必须 靠近 目标 的 真实 边缘 ， 否 则 将 会 得 到 错误 的 结果 ， 并 且 该 算 
法 对 于 背景 中 干扰 物 与 噪声 的 抗 扰 性 较 差 ， 无 法 对 快速 运动 目标 进行 跟踪 。 


(4) 基于 特征 匹配 的 跟踪 算法 

基于 特征 匹配 的 跟踪 算法 是 监控 视频 领域 较 常 用 的 一 种 跟踪 算法 。 首 先 从 视频 序列 中 选择 运 
动 目标 的 适当 特征 作为 跟踪 特征 ， 并 且 在 下 一 帧 图 像 中 根据 约束 条 件 来 寻找 并 提取 特征 ， 然 后 将 
提取 到 的 当前 帧 中 的 目标 特征 与 模版 特征 相 比 较 ， 根 据 比较 的 结果 来 确定 目标 。 该 方法 可 以 忽略 
运动 目标 的 整体 性 ， 仅 跟踪 一 组 在 运动 中 具有 不 变性 质 的 特征 点 。 

海量 视频 监控 检索 系统 中 所 用 到 的 Mean Shift 目标 跟踪 算法 就 是 一 种 典型 的 基于 特征 匹配 的 
跟踪 方法 。 它 将 目标 颜色 灰 度 等 特征 信息 和 Mean Shift 理论 联合 起 来 ， 对 目标 形状 变化 、 大 小 变 
化 等 影响 不 敏感 ， 特 征 相对 稳定 ， 在 没有 遮挡 和 部 分 遮挡 的 情况 下 能 够 准确 地 进行 目标 跟踪 。 该 
算法 具有 良好 的 实用 性 和 稳定 性 ， 适 用 场合 广泛 ， 是 目前 最 受 关注 的 跟踪 算法 之 一 。 





11.3.3 ” 星 形 骨架 方法 


在 行为 识别 与 规则 组 合 这 两 个 过 程 都 涉及 一 个 重要 的 方法 一 一 星 型 骨架 方法 。 本 系统 利用 该 
方法 获取 行为 特征 值 以 及 规则 特征 值 ， 下 面 详细 叙述 该 方法 的 处 理 流程 。 

1. 星 型 骨架 方法 概述 

一 个 人 在 做 不 同 的 动作 时 ， 各 个 动作 的 姿态 存在 着 巨大 的 差别 ， 同 时 ， 当 不 同 的 人 在 做 相同 
动作 的 时 候 ， 也 会 存在 差别 ， 这 些 差 别 正 可 以 区 分 人 体 各 种 运动 。 人 体 姿态 侧 影 轮廓 的 局 部 极 大 
值 点 会 集 在 相对 于 轮廓 中 心 距离 最 远 的 区 域 。 通 常 ， 人 体 姿态 的 侧 影 轮廓 的 局 部 极 大 值 点 位 于 头 
部 和 四 肢 的 区 域 ， 因 此 ， 采 用 人 体 姿 态 侧 影 轮廓 的 局 部 最 大 值 点 到 侧 影 轮廓 中 心 的 相对 距离 能 
有 效 地 描述 人 体 的 姿态 ， 由 于 这 种 特征 在 外 形 上 比较 像 星 状 结构 ， 因 此 ， 将 这 种 特征 命名 为 星 形 
骨架 (star skeleton) 特征 。 图 11.10 描述 了 星 形 骨架 (star skeleton ) 特征 提取 的 算法 流程 。 
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图 11.10 星 型 骨架 (star skeleton ) 特征 提取 的 算法 流程 
2. 星 型 骨架 方法 的 具体 实现 过 程 
(1) 采用 混合 高 斯 模型 (GMM ) 提取 运动 目标 〈 人 ) 的 前 景 图 片 
人 的 运动 姿态 的 特征 提取 ， 第 一 步 就 是 获得 人 体 的 前 景 图 像 。 由 于 运动 姿态 的 特征 提取 算法 
涉及 轮廓 的 提取 ， 所 以 一 般 采 用 混合 高 斯 背景 建 模 〈GMM) 作为 获得 前 景 图 像 的 算法 。 图 11.11 
的 原 图 像 来 自 于 以 色 列 Weizmann 入 的 人 体 行为 数据 库 中 lena-runl.avi 文件 的 第 10 帧 至 第 14 


帧 。 











图 11.11 视频 原 图 像 示 例 


图 11.12 是 采用 GMM 提取 出 的 运动 目标 的 前 景 图 像 的 示例 。 由 于 背景 更 新 的 关系 ， 一 般 要 
到 15 帧 左右 才能 得 到 比较 完整 的 前 景 图 像 。 








图 11.12 采用 GMM 提取 的 前 景 图 象 示例 











(2) 进行 前 景 图 象 的 边缘 提取 ， 得 到 运动 目标 的 轮廓 

本 系统 采用 openCYV 的 库 函 数 cvFindContours 来 进行 轮廓 特征 的 提取 ， 而 此 函数 只 能 找到 大 
致 轮廓 点 。 利 用 此 函数 算法 对 单 帧 图 像 中 的 人 体 轮廓 进行 提取 ， 对 轮廓 边界 进行 放大 ， 观 察 发 现 
人 体 轮廓 边界 不 是 单 像素 点 ， 而 是 由 两 三 个 像素 点 组 成 ， 如 图 11.13 所 示 。 因 此 ， 若 要 计算 人 体 
质心 到 轮廓 边界 的 距离 必须 对 轮廓 边界 单 像素 化 。 
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11.13 人 体 轮廓 局 部 方法 图 


判断 一 个 像素 点 的 下 一 点 可 能 会 有 8 个 方向 ， 若 该 点 的 相 邻 点 不 只 一 个 ， 则 比较 所 有 相 邻 点 
与 该 点 的 方向 和 该 点 与 上 一 个 点 的 方向 的 夹 角 ， 取 夹 角 最 小 的 那个 点 作为 下 一 个 点 。 

假设 图 像 中 水 平方 向 像素 点 的 个 数 和 垂直 方向 像素 点 的 个 数 分 别 为 H 和 V， 图 像 中 像素 点 集 
合 为 : 8S= {(ey)10 入 xz 和 瓦 0 入 ?入 由 。 设 任意 像素 点 (3) 的 灰 度 值 为 gy， 轮 廓 点 集合 
P={Coy)1C0oy)ssgs 关 255} ， 则 非 轮廓 点 集合 为 B={(x,y)|(x,y) es,g, =255} 。 用 一 个 3x3 
的 像素 点 区 域 表示 候选 区 域 ， 如 图 11.14 所 示 ， 对 此 区 域 进行 标记 ， 则 候选 区 域 像素 点 的 集合 
A={G,) 1 ev {Pi)}. 




















11.14 ”候选 区 域 的 标记 图 


设 恕 的 坐标 为 Co,m) ， 则 恕 与 Bi< 8) 的 坐标 位 置 关 系 计算 如 下 : 


xl=x0—1 x8=x0—1 
Ps i "Ue (11-5 

be pe aa 加 ) 
定义 以 马 为 出 发 点 ，P( 三 i< 8) 为 终点 的 向 量 如 下 : 


Fo=P -Dh,...., R=R-h 式 (11-6) 
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定义 向 量 集 合 0={glg=B,l<i<8} , 设 初始 点 的 集合 


T={(x,)|(x,y)e 4,y=min{y},(1 三 i 所 | 4|)}， 任 取 (xs',ys')e7 为 初始 点 ， 则 初始 候选 区 域 像素 


点 的 集合 为 : 


P={G WI Gy) eV {PB} = =v} 式 (11.7) 


设 以 (xs,ys) 为 候选 区 域 的 中 心 点 已 ， 候 选区 域 点 集 

P= {Gy)| (wy) eV (Rn =x,% = 加} ， 则 候选 点 集合 为 : 
已 =4mnP ， 候 选 向 量 集合 为 : R,.=PnonP。 

设 向 量 B6e R(I1 i < 8)， 则 夹 角 计算 公 式 如 下 : 


sh i 


a =arccos 一 ee Pe 1<i<8 式 (11-8》 


lB [lpol 
其 中 ，a 为 向 量 页 和 页 的 夹 角 ， 为 了 便于 方便 ， 需 要 对 a! 作 如 下 变换 : 


ar= 


， 和 ifa'=0 


， 
T+a otherwise 


向 量 夹 角 的 集合 为 D={b1b=an1<i<8,b 关 区 


设 提取 的 轮廓 点 集合 为 E, 则 E=EU(x,y), 取 a=min D(1 志 i< 8)。 按 照 上 述 流程 即 可 得 


到 轮廓 的 单 像素 化 。 最 后 得 到 运动 对 象 的 单 像素 化 的 轮廓 如 图 11.15 所 示 。 





图 11.15 图像 序列 的 轮廓 示例 
(3) 采用 星 型 骨架 算法 ， 提 取 运 动 目标 的 星 型 骨架 





得 到 了 运动 目标 姿态 的 完整 轮 遍 
流程 图 如 11.16 所 示 。 
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名 ， 就 可 以 采用 星 形 骨架 算法 得 到 运动 物体 的 星 形 骨架 。 算 法 
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图 11.16 星 型 骨架 算法 流程 图 
该 算法 主要 由 以 下 4 部 分 组 成 。 
e 基于 获得 的 姿态 轮 廊 得 到 轮 廊 的 质心 。 轮 廊 的 质心 获得 根据 以 下 公式 得 到 : 


< 沿海 式 (11-10) 
六 i 式 (11-11) 


其 中 ，N 为 轮廓 边界 点 的 数目 ，(%,y») 为 轮廓 边界 点 的 坐标 ，(x.,y.) 为 获得 的 轮廓 质心 。 


@ 计算 轮 廊 上 的 点 到 轮 廊 质 心 的 欧式 距离 d;。 利用 x 和 ?计算 轮廓 上 的 每 一 个 点 与 轮 廊 质心 
的 欧式 距离 ， 得 到 一 个 一 维 的 数字 序列 di;。 


d=VG x) + -yy 起 C2 
@。 对 di 进行 平滑 处 理 。 采 用 平滑 滤波 器 或 低 通 滤 波 器 对 di 进行 平滑 处 理 ， 以 减少 噪声 的 干 
扰 ， 得 到 平滑 后 的 输出 序列 ^di;。 
日 寻找 出 和 dj 的 局 部 极 大 值 点 与 轮 廉 质心 获得 运动 目标 的 星 形 骨 架 。 根据 ^d>^drt1 且 
Ad>^dr1 得 到 局 部 最 大 值 点 ， 获 得 运动 目标 的 星 形 骨 架 。 


图 11.17 是 lena-runl.avi 视频 中 第 10~14 帧 提取 的 星 形 骨架 。 选 用 星 形 骨架 算法 作为 提取 人 
的 运动 姿态 特征 主要 有 两 个 优势 : 第 一 ， 有 效 地 减少 了 特征 数据 的 元 余 度 ,减少 了 计算 量 。 第 二 ， 
通过 选择 合适 的 低 通 滤波 器 或 者 平滑 滤波 器 ， 可 以 有 效 地 降低 特征 向 量 的 维 数 。 在 本 系统 中 ， 采 
用 的 是 指数 滤波 器 ， 通 过 调节 系数 ， 将 特征 向 量 的 维 数 降低 到 5 维 左右 ， 这 是 因为 每 个 人 所 做 的 
各 种 姿态 ， 手 脚 之 间 的 摆动 幅度 是 不 一 样 的 ， 可 以 通过 这 种 差别 ， 有 效 地 描述 人 的 运动 姿态 。 图 
11.17 是 采用 星 形 骨 架 算法 从 上 面 的 图 中 对 应 运动 序列 的 星 形 骨 架 特征 。 
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实战 大 数据 


了 


11.17 ”获取 的 星 型 骨架 特征 


通常 ， 通 过 分 析 人 体 骨 骼 各 部 分 的 运动 来 确定 运动 目标 的 状态 目前 主要 应 用 在 人 体 行为 分 析 
或 者 是 步 态 研究 。 通 过 星 形 骨 架 的 提取 ， 得 到 了 人 体 运动 姿态 的 表征 ， 但 这 只 是 第 一 步 ， 下 面 就 
是 怎样 将 这 种 表征 转化 为 可 以 度量 的 特征 向 量 形式 。 由 于 根据 星 形 骨 架 特征 ， 得 到 了 人 体 前 景 轮 
廓 的 局 部 最 大 值 点 分 别 代 表 人 体 的 头 、 手 、 脚 所 在 的 区 域 ， 采 用 两 个 脚 之 间 的 夹 角 被 用 来 区 分 人 
的 姿态 是 走 还 是 跑 ， 但 是 无 法 区 分 更 多 的 人 体 运 动 姿态 。 

由 于 人 存在 高 矮 胖 瘦 ， 因 此 ， 在 选择 特征 向 量 时 ， 应 该 是 特征 向 量具 有 普遍 适应 性 ， 因 此 ， 
可 以 通过 计算 提取 出 来 前 景 图 像 轮廓 的 局 部 最 大 值 点 与 轮廓 质心 的 幅 角 作为 特征 向 量 的 元 素 。 之 
所 以 选择 前 景 图 像 轮廓 的 局 部 最 大 值 点 与 轮廓 质心 的 幅 角 作为 特征 ， 是 因为 它 抛 开 了 人 的 姿态 由 
于 高 矮 胖 瘦 的 影响 ， 可 以 较 好 地 定义 一 个 人 的 运动 姿态 。 如 图 11.18 所 示 ， 对 于 提取 到 一 帧 图 像 
的 星 形 骨架 对 应 的 运动 特征 向 量 为 A={48.667789 ，287.311646 ，240.788712 ，184.899094， 
170.272415，85.732109}， 其 中 特征 向 量 A 中 的 各 个 元 素 分 别 为 各 个 局 部 最 大 值 点 与 轮廓 质心 的 
幅 角 。 





图 11.18 星 型 骨架 特征 的 参数 化 


以 上 介绍 为 一 般 星 型 骨架 方法 的 主要 处 理 流程 , 也 是 本 系统 所 采用 的 主要 行为 特征 提取 方法 。 
有 所 变动 的 是 ， 本 系统 在 提取 出 单 像素 化 轮廓 并 计算 出 质心 与 欧式 距离 后 ， 按 照 人 体 的 头 部 以 及 
上 下 肢 之 间 的 比例 ， 将 人 体 分 为 5 部 分 。 如 图 11.19 所 示 ， 分 为 A、B、C、D、E 共 5 部 分 。 对 
每 一 部 分 计算 欧式 距离 的 最 大 极 大 值 点 ， 然 后 建立 如 图 11.20 所 示 的 以 质心 为 原点 的 坐标 系 ， 计 
算出 5 个 最 大 极 大 值 点 在 该 坐标 系 中 的 角度 偏 移 量 。 假 定 5 个 最 大 极 大 值 点 的 坐标 
(5 三 i 二 5)， 质 心 坐标 为 (x.,y.)， 则 计算 出 最 大 极 大 值 点 与 质心 坐标 的 角度 8(1<i5) 偏 
移 量 公 式 如 下 。 
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| 疙 一 六 | 


en[ 尼 | 
B= ,igo 式 (11-13) 
3.14 


最 后 以 5 个 最 大 极 大 值 点 的 角度 偏 移 以 及 质心 坐标 ,组 成 一 帧 图 片 中 一 个 对 象 的 行为 特征 值 。 


四 ， 


J 

x ， x 
-A 

图 11.19 人 体 躯 干 划分 图 11.20 ”建立 以 质心 为 原点 的 人 体 坐 标 系 


详细 设计 与 实现 


11.4.1 基于 MapReduce 的 视频 预 处 理 


1. 利用 GMM ( 混合 高 斯 模型 ) 进行 背景 建 模 


在 11.3.2 节 中 已 经 对 从 视频 中 检测 运动 目标 的 方法 做 了 简单 的 介绍 ， 并 指出 本 系统 采用 背景 

减 除法 中 的 GMM 算法 进行 运动 目标 检测 。 接 下 来 将 详细 阐述 GMM 背景 建 模 与 目标 检测 的 实现 。 

混合 高 斯 背景 建 模 的 基本 思想 是 : 将 图 像 中 的 每 一 个 像素 点 都 由 K 个 高 斯 分 布 来 表示 。 其 中 

K 的 取 值 一 般 为 3~7， 这 是 由 计算 机 内 存 和 对 算法 速度 的 要 求 来 决定 的 ，K 值 越 大 则 处 理 波 动能 

力 就 越 强 但 是 处 理 时 间 也 会 越 长 。 令 某 一 像素 点 在 t 时 刻 的 颜色 取 值 表示 为 状 〈 灰 度 图 像 中 头 是 

-个 标量 ， 彩 色 图 像 中 总 是 一 个 矢量 )， 其 概率 密度 函数 用 K 个 高 斯 函数 的 线性 组 合 表示 : 

POD= Yio x ME ur Ee) 式 (11-14) 
1 -om ， 

人 三 


QD 1,2,…,K 式 (11-15) 


(Xlir 2 a 


其 中 ，7(Xuy 己 ，) 是 第 让 个 高 斯 分 布 ，@, 表示 时 刻 上 混合 高 斯 模型 中 第 在 高 斯 分 布 的 权 系数 
的 估计 值 , 其 大 小 体现 了 当 i 按 模型 表示 像素 值 时 的 可 靠 程度 , 同时 满足 4a, =1; ww 和 守 
分 别 表示 时 刻 上 混合 高 斯 模型 中 第 i 个 高 斯 分 布 的 均值 向 量 和 协 方差 矩阵 ， 均 值 向 量 体 现 了 每 个 
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高 斯 分 布 的 中 心 ， 协 方差 是 高 斯 分 布 的 宽度 大 小 ， 体 现 了 像素 值 的 不 稳定 程度 ; n 是 总 的 维 数 ， 
当 为 灰 度 图 像 时 ，n=1， 当 为 彩色 图 像 时 ， 为 了 提高 算法 的 效率 并 降低 复杂 度 ， 假 定 每 帧 图 像 的 
各 个 像素 点 的 RGB 三 个 颜色 分 量 均 是 相互 独立 的 ， 且 具有 一 样 的 方差 ， 其 协 方差 矩阵 的 取 值 为 : 
or00 
>,=|0 cos 0 i=L%E 
0 00 





式 (11-16) 


式 中 oa? 、o2 、0%2 分 别 为 对 应 颜色 分 量 的 高 斯 模型 方差 ， 即 表明 每 一 个 颜色 通道 各 建立 了 


Es: 


一 个 一 维 的 混合 高 斯 模型 。 

高 斯 混合 模型 在 使 用 之 前 必须 进行 初始 化 ， 为 了 降低 对 计算 机 性 能 的 要 求 ， 直 接 将 每 个 高 斯 
分 布 的 权 系数 和 均值 向 量 都 初始 化 为 0, 协 方差 赋予 一 个 初始 值 VO。 接 下 来 开始 根据 时 间 序列 上 
像素 的 动态 变化 来 更 新 混合 高 斯 背景 模型 , 此 时 需要 将 新 图 像 的 像素 值钱 与 K 个 高 斯 分 布 分 别 通 
过 以 下 依据 进行 匹配 : 


式 (11-17) 
[Xu E250%, 


如 果 像 素 值 头 与 某 个 高 斯 分 布 的 均值 yi, 之 间 的 差 值 在 相应 分 布 标准 差 的 2.5 倍 范围 之 内 ， 
则 认为 该 像素 值 与 该 高 斯 分 布匹 配 ， 否 则 不 匹配 。 与 当前 像素 总 匹配 的 高 斯 模型 时 需要 对 K 个 高 
斯 模型 进行 动态 更 新 ， 其 更 新 公式 如 下 : 





gr = 一 C)O +C 式 (11-18) 
Hr =(1- Pp + BX, 式 (11-19) 
oi =(1 -Bon + BX,— ps) (X, — pHs) 式 (11-20) 


其 中 ，a(0 <a <1) 为 自 定义 的 学 习 速率 ,其 大 小 决定 了 背景 的 更 新 速度 ， 本 系统 中 =0.3 ; 
为 参考 学 习 连 率 ， 表 示 高 斯 分 布 中 各 参数 更 新 的 快慢 ，p 可 以 近似 等 了 4。 

如 果 像 素 值 蕊 没有 与 任何 高 斯 分 布匹 配 , 则 引入 一 个 新 的 高 斯 分 布 蔡 换 其 中 对 应 权 值 最 小 的 
高 斯 分 布 ， 该 高 斯 分 布 以 当前 像素 为 均值 ， 重 新 初始 化 一 个 较 大 的 方差 和 一 个 较 小 的 权 值 ， 而 其 
他 高 斯 分 布 J 、o,, 参 数 保持 不 变 ， 只 对 其 权 值 进行 以 下 处 理 


Our =( -0 C 为 学 习 率 式 (11-21) 


混合 高 斯 模型 只 对 图 像 中 的 所 有 像素 进行 建 模 ， 并 不 对 背景 与 前 景 进行 判别 。 但 是 ， 根 据 参 
数学 习 机 制 可 知 ， 由 于 背景 像素 值 出 现 率 较 高 ， 因 此 由 那些 权 值 大 的 高 斯 公式 来 表述 ， 而 运动 目 
标 采用 权重 较 小 的 高 斯 分 布 进行 表述 。 在 获得 新 的 视频 帧 后 ， 首 先 需要 根据 新 图 像 的 像素 值 对 混 
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合 高 斯 模型 进行 更 新 ， 然 后 归 一 化 所 有 高 斯 函数 的 权重 w, ， 并 将 K 个 高 斯 模型 根据 节 (此 值 
越 大 则 说 明 像素 出 现 的 概率 越 大 ， 是 背景 的 可 能 性 越 大 ) 进行 降序 排列 。 设 置 阔 值 T， 大于 T 
的 分 布 则 均 为 背景 分 布 ， 其 他 则 为 运动 前 景 分 布 。 

混合 高 斯 背景 建 模 尤其 适合 室外 光线 以 及 天 气 变 化 不 太 强烈 的 情况 下 的 运动 目标 检测 ， 而 且 
能 够 很 好 地 判断 动静 相互 转换 的 物体 ， 具有 很 强 的 自 适应 能 力 。 本 系统 采用 OpenCV 函数 库 中 提 
供 的 混合 高 斯 模型 进行 运动 目标 提取 。 由 于 MapReduce 编程 框架 对 于 Java 有 更 好 的 支持 ， 因 为 
本 系统 中 后 续 将 使 用 利用 Java 封装 后 的 OpenCV 库 进行 视频 的 处 理 , 但 是 为 了 方便 描述 , 此 处 直 
接 给 出 C/C++ 版 本 的 函数 。 

BackgroundSubtractorMOG2 为 函数 库 定 义 的 混合 高 斯 模型 类 ,通过 该 类 就 可 以 实现 运动 前 景 
与 背景 的 分 离 ， 主 要 的 步骤 如 下 : 


BackgroundSubtractorMOG2 bg_model; // 定 义 一 个 混合 高 斯 模型 类 

for(;;) 

{ 

//img 与 fgmask 分 别 为 当前 帧 与 前 景 图 片 ， 根 据 此 构造 函数 即 可 进行 前 景 与 背景 分 离 
bg_model (img, fgmask, update bg model ? -1 : 0) 7 

// 可 以 通过 getBackgroundImage 方法 得 到 背景 图 片 

bg_model.getBackgroundImage (bgimg); 

} 


2. 运动 目标 检测 的 MapReduce 设计 


海量 监控 视频 检索 系统 分 为 由 视频 文件 触发 的 视频 处 理 模块 与 由 用 户 触 发 的 视频 检索 模块 。 
由 视频 文件 触发 的 视频 处 理 模块 在 不 需要 人 工 干预 的 情况 下 ， 只 要 监控 摄像 头 在 不 停 地 产生 视频 
文件 , 该 模块 就 会 持续 运行 下 去 , 对 每 个 视频 文件 中 的 运动 对 象 进行 检测 与 提取 。 本 系统 基于 “ 海 
量 ” 的 监控 视频 ， 即 系统 需要 处 理 的 是 不 止 一 个 监控 摄像 头 产生 的 视频 文件 ， 以 一 个 监控 摄像 头 
10 分 钟 产 生 一 个 监控 视频 为 例 , 一 个 监控 摄像 头 一 天 将 会 产生 144 个 视频 文件 , 10 个 摄像 头 一 天 
将 会 产生 1440 个 视频 文件 。 因此 ， 如果 用 户 在 运用 本 系统 之 前 就 已 经 安装 了 监控 设备 ， 则 会 存在 
海量 的 没有 经 过 处 理 的 原始 视频 数据 。 

如 果 采 用 串 行 的 方式 进行 这 些 原始 视频 文件 的 处 理 ， 对 于 海量 原始 视频 数据 的 处 理 所 需 的 时 
间 将 会 是 相当 长 的 ， 因 此 , 本 系统 选择 使 用 MapReduce 并 行 分 布 式 处 理 框架 对 海量 的 视频 数据 进 
行 处 理 ， 以 提高 处 理 的 效率 ， 如 图 11.21 所 示 为 视频 预 处 理 模块 的 体系 结构 。 适 合用 MapReduce 
来 处 理 的 任务 有 一 个 基本 要 求 : 待 处 理 的 数据 集 可 以 分 解 成 为 许多 小 的 数据 集 ， 而 且 每 一 个 小 数 
据 集 都 可 以 完全 并 行 地 进行 处 理 。 
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图 11.21 视频 预 处 理 模块 体系 结构 








大 多 数 MapReduce 程序 的 编写 都 可 以 简单 地 依赖 于 一 个 模板 及 其 变种 。 使 用 这 个 模板 编写 
MapReduce 程序, 主要 需要 实现 两 个 函数 :继承 自 Mapper 的 map 函数 以 及 继承 自 Reducer 的 reduce 
函数 。 一 般 遵循 以 下 格式 : 


® Map:  (klvl) 一 1list(k2,v2) 


Public static class Map extends Mapper<K]1, V1, K2, V2> { 
Public void map (K1 key, V1 value, Context context) 
throws IOException { } 

} 


® Reduce: (k2,list(v2)) ->list(v3) 


public static class Reduce extends Reducer<K2, V2, K3, V3> { 


public void reduce(K2 key, Iterator<V2> values, Context context) 
throws IOException { } 
| 


针对 本 系统 来 说 ， 待 处 理 的 视频 集 可 以 分 解 成 许多 的 单一 视频 ， 而 且 每 一 个 视频 文件 都 可 以 
完全 并 行 地 进行 处 理 , 接 下 来 将 针对 如 何 将 视频 处 理 模块 全 部 或 者 部 分 转换 到 MapReduce 编程 模 
型 中 的 两 个 计算 模型 中 进行 设计 与 实现 。 

视频 预 处 理 的 目标 是 要 对 指定 文件 夹 中 的 视频 文件 进行 处 理 ， 提 取出 每 个 视频 中 的 运动 目标 

(object_id)、 视 频 生 成 时 间 (time)、 起 始 帧 (start)、 终 止 帧 (end)、 目 标 图 片 (pic) 等 运动 对 
象 与 视频 的 属性 ， 然 后 将 这 些 属性 均 存 储 到 分 布 式 数据 库 HBase 中 。 图 11.22 画 出 了 利用 
MapReduce 模型 进行 视频 预 处 理 的 流程 图 。 


input | map | reduce | output 


(video_id, video_addr) (object_id, <time,*,video,i 
(video_id, video_addr) (object_id, <time…videe_i 
监控 视频 集 (video_jd, video_addr) (object id, <time id 
(video id， video_addr) (object_jd, crime 
(video id， video_addr) 


(object_id, <timey。 





video id time … object id 
aavi .obj01 
bavi b_obj02 
cavi c_obj01 
davi d_objol 








图 11.22 利用 MapReduce 模型 进行 视频 预 处 理 流程 图 


452 


第 11 章 ， 基 于 内 容 的 海量 视频 检索 系统 





首先 ， 通 过 监控 摄像 头 产 生 视 频 文件 ， 并 保存 在 本 地 物理 磁盘 上 的 同时 通过 建立 索引 将 视频 
文件 按 摄 像 头 编号 存储 到 HDFS 文件 系统 中 。 以 10 分 钟 的 监控 视频 文件 为 例 ， 其 单个 大 小 约 为 
50MB， 而 MapReduce 首先 将 输入 文件 划分 为 M 个 16MB~64MB 的 数据 分 片 ， 则 说 明 单一 视频 
可 以 被 作为 一 个 数据 分 片 进行 处 理 。 其 次 ， 为 自 定义 的 map 函数 制定 输入 文件 的 内 容 格式 ， 这 里 
需要 自 定 义 一 个 mputFormat 类 。 由 于 map 函数 的 输入 必须 是 key/value 对 ， 本 系统 自 定义 的 map 
函数 指定 输入 key 为 视频 文件 名 video id, 是 Text 类 型 ,value 为 所 处 理 的 视频 文件 的 物理 地 址 信 
息 ， 也 是 Text 类 型 。 由 于 默认 提供 的 操作 无 法 满足 我 们 的 需求 ， 所 以 我 们 继承 InputFormat 类 ， 
将 输入 的 文件 集 解析 为 map 函数 所 需要 的 key/value 值 形 式 。 

然后 ， 自 定义 map 函数 承担 map 任务 的 实现 。 在 该 函数 中 接收 刚刚 解析 出 的 key/value 对 ， 
再 提取 value 值 中 保存 的 视频 文件 的 物理 地 址 ， 对 视频 文件 进行 运动 目标 以 及 属性 提取 的 处 理 ， 
并 组 合成 中 间 key/value 值 传递 给 reduce 函数 进行 处 理 。 其 中 ,key 为 每 个 运动 对 象 的 唯一 id, value 
值 是 一 个 关联 数组 ， 它 使 用 Hadoop 特有 的 关联 数组 MapWritable， 其 中 保存 video_ id、time 等 内 
容 。 输 出 类 型 为 <Text,MapWritable>。 

最 后 ， 需 要 自 定 义 reduce 函数 实现 reduce 任务 。 此 处 reduce 任务 相对 简单 ， 只 是 将 map 函 
数 产生 的 中 间 key/value 值 存储 到 HBase 中 。 经 过 以 上 操作 ，HDFS 中 的 监控 视频 文件 集 先 由 自 定 
义 的 InputFormat 分 割 为 单个 的 视频 文件 , 再 经 过 map 操作 得 到 每 个 视频 文件 中 的 object_id、time、 
object_pic 等 信息 ， 最 后 由 reduce 操作 将 每 个 视频 文件 的 信息 存储 到 HBase 中 ， 这 样 就 利用 
MapReduce 框架 完成 了 视频 预 处 理 的 逻辑 过 程 ,由 于 map 任务 和 reduce 任务 都 是 分 布 式 的 高 度 并 
行 的 ， 所 以 MapReduce 框架 在 处 理 海量 监控 视频 检索 系统 的 大 量 数 据 上 有 着 不 可 忽视 的 优势 。 


3. MapReduce 对 运动 目标 检测 的 实现 
根据 上 述 的 详细 设计 流程 ， 海 量 监控 视频 检索 系统 的 视频 预 处 理 功能 需要 以 下 2 个 核心 类 帮 
助 实现 。 
(1) VideoMapper: 自 定 义 的 Mapper 类 。 该 类 继承 Mapper 类 ， 并 重 写 Mapper 类 中 的 map 
函数 ， 主 要 实现 对 原始 视频 数据 的 map 操作 。 在 这 里 是 对 参数 中 传递 的 value 值 所 对 应 的 视频 数 
据 进行 处 理 ， 分 析出 视频 数据 中 的 运动 目标 、 视 频 生 成 时 间 、 目 标 图 片 等 信息 。 


(2) VideoReducer: 自 定义 的 Reducer 类 。 该 类 继承 了 Reducer 类 ， 并 重 写 Reducer 类 中 的 
reduce 函数 ， 主 要 完成 对 中 间 数 据 集 的 合并 任务 。 本 例 中 reduce 函数 功能 较为 简单 ， 所 需 完 成 的 
只 是 将 map 函数 产生 的 中 间 key/value 值 存储 到 HBase 中 。 


VideoMapper 和 VideoReducer 是 以 MapReduce 编程 模型 实现 视频 预 处 理 功能 中 的 最 重要 的 两 
个 类 ,分 别 实现 了 MapReduce 编程 模型 中 的 map 操作 和 reduce 操作 ， 如 图 11.23 是 系统 视频 预 处 
理 模 块 的 类 交互 图 。 
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VideoReducer VideoMapper 


teduce( Text, terable<Mapywitable> Cortext)| |*map( Tex, Text, Context) 


























11.23 ”系统 视频 预 处 理 模块 的 类 交互 图 


由 于 Hadoop 提供 了 强大 的 接口 才 使 得 程序 员 可 以 十 分 简便 地 实现 MapReduce， 程 序 员 只 需 
要 表述 他 想 要 执行 的 简单 map 和 reduce 运算 即 可 ， 不 必 关 心 并 行 计算 、 容 错 、 数 据 分 布 、 负 载 均 
衡 等 复杂 的 细节 问题 。 

在 读 取 了 视频 数据 后 ， 需 要 解析 key/value 值 作为 Mapper 的 输入 ， 进 入 到 map 阶段 。 
VideoMapper 类 实现 了 map 操作 ， 在 这 个 操作 里 ， 首 先 根据 输入 的 value 值 对 视频 文件 进行 处 理 ， 
这 里 可 以 直接 调用 已 经 封装 好 的 用 于 运动 目标 检测 的 动态 链接 库 文件 ， 得 到 视频 中 存在 的 运动 目 
标 、 视 频 生 成 的 时 间 等 信息 。 执 行 完 map 过 程 后 , 所 有 具有 相同 key 值 的 中 间 value 随 后 会 将 Hadoop 
MapReduce 框架 进行 组 合 ， 并 被 传输 到 自 定义 的 Reducer 类 中 。VideoMapper 类 利用 分 而 治之 的 
思想 ,将 整个 文件 集 分 割 成 为 单个 的 视频 进行 并 行 处 理 。 在 每 个 map 操作 中 ， 利 用 GMM 建 模 与 
Mean Shift 算法 得 到 运动 目标 、 运 动 轨迹 以 及 目标 图 片 等 信息 ， 并 利用 OpenCV 提供 的 库 函 数 得 
到 所 处 理 的 视频 的 生成 时 间 、 视 频 帧 率 等 视频 信息 ， 将 视频 与 运动 目标 这 两 部 分 的 信息 通过 自 定 
义 的 Reducer 类 存储 到 HBase 中 。 

在 main 函数 中 用 户 需要 定制 一 个 Job， 用 于 执行 一 次 计算 任务 ， 可 以 通过 一 个 Job 对 象 设置 
如 何 运行 这 个 Job。 下 面 代码 中 ， 定 义 了 输出 的 key 类 型 是 Text，value 的 类 型 是 MapWritable， 
指定 自 定义 的 VideoMapper 类 作为 Mapper 类 ， 使 用 自 定义 的 VideoReducer 类 作为 Reducer 类 。 
任务 的 输入 路 径 和 输出 路 径 由 命令 行 参数 指定 ， 这 样 计算 任务 运行 时 会 处 理 输入 路 径 下 的 所 有 文 
件 ， 并 将 计算 结果 写 到 输出 路 径 中 。 最 后 通过 Job 对 象 的 waitForCompletion 〈) 方法 运行 计算 任 
务 ， 并 一 直 等 待 直 到 计算 结束 ， 以 此 来 完成 一 次 MapReduce 计算 。 


public static void main (String[] args) throws IOExceptiony 
InterruptedException, ClassNotFoundException 
{ 
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Configuration conf = new Configuration(); 

String[] otherRrgs = new GenericOptionsParser (conf, args) .getRemainingArgs(); 

if (otherArgs.length != 2) { 
System.err.Println("Usage: VideoProcess <in><out>"); 
System.exit (2); 

下 

Job job = new Job (conf，video Process") 7 

job .setJarByClass (videoprocess.class); 

job.setMapperClass (VideoMapper.class); 

job.setReducerClass (VideoReducer.class); 

job .setOutputKeyClass (Text.class); 

job.setOutputValueClass (MapWritable.class); 

FileInputFormat .addInputPath (job，new Path(otherArgs[0])); 

FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 

job.waitForCompletion (true); 

有 


11.4.2 ”基于 HBase 的 视频 数据 存储 


1. MEPG-7 与 基于 内 容 的 海量 视频 检索 系统 


在 11.3.1 节 中 对 MPEG-7 以 及 OpenCV 图 像 处 理 库 进行 了 简单 介绍 。 在 本 节 中 ， 我 们 将 对 这 
两 者 在 系统 中 的 具体 应 用 进行 详细 的 阐述 。 

视频 检索 就 是 从 大 量 的 视频 数据 中 找到 所 需 的 视频 片断 或 视频 点 。 传 统 的 视频 检索 只 能 通过 
快 进 和 快 退 等 方法 人 工 查找 ， 是 极为 繁琐 且 耗 时 的 一 项 工作 ， 这 显然 已 无 法 满足 多 媒体 数据 库 的 
要 求 。 用 户 往往 希望 只 要 给 出 示例 图 像 或 给 出 特征 描述 ,系统 就 能 自动 地 找到 所 需 的 视频 片断 点 ， 
即 实现 基于 内 容 的 视频 检索 。 

基于 内 容 的 视频 检索 是 建立 在 基于 内 容 的 静态 图 像 检索 基础 上 的 ， 因 为 视频 可 以 看 作 是 一 个 
连续 静态 图 像 的 序列 ， 其 中 的 每 一 幅 静 态 图 像 称 为 一 帧 。 在 基于 内 容 的 海量 视频 检索 系统 中 ， 由 
于 针对 的 是 安防 监控 领域 的 应 用 ， 从 监控 摄像 头 中 获取 的 原始 视频 有 如 下 特点 : 背景 图 片 基本 上 
不 变 或 者 是 变化 很 小 的 ， 我 们 只 关注 镜头 中 运动 的 对 象 。 所 以 在 本 系统 中 ， 只 提取 识别 出 有 运动 
物体 的 图 像 帧 。 系 统 采用 OpenCV 图 像 处 理 库 提取 对 象 图 片 以 及 颜色 特征 、 纹 理 特 征 以 及 运动 特 
征 。 如 果 读 者 感 兴趣 的 话 ， 利 用 OpenCV 进行 操作 的 具体 过 程 可 以 参考 《学 习 OpenCV》 这 本 书 ， 
这 里 不 做 详细 介绍 。 

接 下 来 ， 向 读者 介绍 MPEG-7 标准 的 视频 描述 工具 ， 包 括 用 来 描述 视频 对 象 的 各 种 描述 符 和 
描述 方案 。 它 的 组 成 部 分 包括 网 格 结构 、2D-3D 多 视角 、 时 间 序 列 、 空 间 2D 配合 、 时 间 插 补 这 
5 种 基本 结构 和 几 种 基本 的 视觉 特征 描述 符 : 颜色 、 纹 理 、 形 状 、 运 动 、 定 位 及 其 他 。 每 一 类 都 
由 基本 和 复杂 的 描述 符 和 描述 方案 组 成 。 由 于 基于 内 容 的 海量 视频 检索 系统 主要 涉及 颜色 描述 符 、 
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纹 到 





描述 符 以 及 形状 描述 符 ， 因 此 重点 介绍 这 三 种 描述 符 。 


(1) 颜色 描述 符 


MPEG-7 定义 的 颜色 特征 包括 7 种 颜色 描述 符 ， 分 别 是 颜色 空间 (Color Space) 、 颜 色 量化 


(Color Quantization) 、 主 颜色 (Dominant Colors)、 可 伸缩 颜色 (Scalable Color) 、 颜 色 布局 (Color 
Layout) 、 颜 色 结构 〈Color Structure》 和 帧 组 / 图 像 组 颜色 (GoF / GoP Color) 。 其 中 颜色 空间 
和 颜色 量化 这 两 个 描述 符 主要 用 来 和 别 的 描述 符 相 结合 ， 不 单独 使 用 ， 它 们 规定 了 别 的 描述 符 使 
用 的 颜色 空间 和 量化 的 方法 。 


e 颜色 空间 “MPEG-7 标准 颜色 描述 符 定义 的 颜色 空间 ,支持 的 几 种 颜色 空间 模型 有 RGB、 


YCbC、HSV、HMMD、 单 色 以 及 对 RGB 的 线性 转换 阵 模型 等 。 


@ 颜色 量化 : 该 描述 符 与 主 颜 色 等 其 他 特征 描述 符 配合 使 用 定义 颜色 空间 的 均匀 量化 方法 。 


它 包括 线性 量化 、 非 线性 量化 以 及 查找 表 量 化 .量化 时 可 以 根据 不 同 应 用 规定 量化 比特 数 。 


® 主 有 颜色 : 该 描述 符 最 适用 于 表示 局 部 (对 象 或 图 像 区 域 ) 特征 ， 它 也 可 以 用 于 整个 图 像 ， 


例如 旗帜 图 像 或 彩色 商标 图 像 可 以 通过 颜色 量化 等 方法 提取 每 一 区 域 或 图 像 的 少数 几 种 
出 现 频率 较 高 的 表示 色 作为 主 颜 色 ， 来 进行 图 像 颜色 信息 的 相似 性 检索 。 


e 可 仲 缩 颜色 : 可 伸缩 颜色 是 HSV 空间 的 颜色 直方 图 ， 定 义 了 一 个 可 调 的 二 进 制 的 位 数 和 


可 调 的 表达 精度 来 表示 图 像 的 颜色 特征 这 个 描述 符 主要 用 于 图 像 与 图 像 的 匹配 和 基于 颜 
色 特 征 的 检索 ， 检 索 的 精度 随 着 描述 中 使 用 的 比特 数目 的 增加 而 增加 。 


e 颜色 布局 : 指定 了 图 像 颜色 的 空间 分 布 模型 ， 以 帮助 提高 检索 和 浏览 的 速度 。 既 可 以 定义 


整 幅 图 像 的 颜色 空间 分 布 ， 也 可 用 于 一 幅 图 像 的 某 一 部 分 的 颜色 分 布 。 


@ 颜色 结构 : 颜色 结构 描述 符 是 一 个 颜色 特征 描述 符 ， 它 既 包 括 颜 色 内 容 信息 ( 类 似 于 颜色 


直方 图 ) ， 又 包括 内 容 的 结构 信息 。 它 的 主要 功能 是 图 像 与 图 像 的 匹配 ， 主 要 用 于 静态 图 
像 检索 。 


e 帧 组 / 图 像 组 颜色 : 该 描述 符 将 静态 图 像 的 可 伸缩 颜色 描述 符 扩展 到 对 视频 片断 或 静态 图 


像 集合 的 颜色 描述 。 所 定义 的 帧 组 可 以 是 镜头 、 子 镜头 或 者 是 镜头 组 。 
(2) 纹理 描述 符 


MPEG-7 中 定义 了 三 种 纹理 描述 符 : 同 构 纹 理 描述 符 (Homogenous Texture Descriptors) 、 纹 


理 浏览 描述 符 (Texture Browsing Descriptors ) 和 边缘 直方 图 描述 符 (Edge Histogram Descriptors) 。 
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@ 同 构 纹理 : 同 构 纹理 作为 一 个 重要 的 视觉 基本 特征 ， 反 映 了 纹理 的 一 致 性 和 空间 频 度 分 


布 ， 主 要 用 于 大 量 相似 图 案 的 搜索 和 浏览 。 一 幅 图 像 可 看 作 由 规则 纹理 以 马赛 克 形式 拼接 
而 成 ， 所 以 与 这 些 区 域 关联 的 纹理 特征 可 以 作为 索引 来 检索 图 像 。 


@ 纹理 浏览 : 纹理 浏览 描述 符 对 于 表现 纹理 特征 的 类 型 浏览 很 有 用 ， 并 且 它 最 多 仅 需 12 比 


特 信息 。 类 似 于 人 的 特征 区 分 ， 这 个 描述 符 从 结构 性 、 分 布 粒度 和 方向 性 等 方面 表现 纹理 
的 感知 特征 。 


日 边缘 直方 图 : 边缘 直方 图 描述 符 表示 5 种 类 型 边缘 的 空间 分 布 图 一 纵向 、 横 向 、45 度 、 


135 度 以 及 非 方向 。 它 可 以 用 于 相似 语义 的 图 像 检索 ， 因 此 它 的 主要 目标 在 于 图 像 与 图 像 
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的 匹配 (通过 示例 或 草图 ) ， 特 别 是 边缘 分 布 不 规则 的 自然 图 像 。 


(3) 形状 描述 符 
形状 特征 对 于 人 来 说 是 识别 物体 的 主要 信息 ， 是 一 种 重要 的 图 像 内 容 表达 手段 。 不 同 于 颜色 
或 纹理 等 底层 特征 ， 形 状 特征 的 表达 必须 以 对 图 像 中 物体 或 区 域 的 划分 为 基础 。MPEG-7 定义 了 
三 种 形状 描述 符 : 基于 区 域 的 形状 Region Shape)、 基 于 轮廓 的 形状 〈Contour Shape) 和 三 维 形 
状 (Shape 3D )。 
@ 基于 区 域 的 形状 : 可 用 于 描述 单个 连通 的 区 域 或 多 个 不 连通 的 区 域 ， 由 一 组 角 放 射 变换 系 
数 (Angular Radial Transformation，ART ) 构成 。 基 于 区 域 的 形状 描述 符 具有 小 的 数据 量 、 
快速 的 提取 时 间 和 匹配 等 特点 ， 表 示 该 描述 符 的 数据 大 小 固定 为 17.5 字 节 。 显 然 ， 特 征 
提取 和 匹配 过 程 能 够 拥有 较 低 的 计算 复杂 度 ， 因 此 适合 于 在 视频 数据 处 理 中 跟踪 外 形 。 
e@ 基于 轮廓 的 形状 : 基于 轮廓 的 形状 描述 所 描述 的 对 象 或 区 域 的 形状 特征 是 以 它 的 轮廓 线 为 
基础 ， 它 常常 被 称 为 曲率 尺度 空间 (CSS ) 表示 ， 重 在 描述 对 象 的 具有 感知 意义 的 形状 特 
征 。 它 包括 一 些 重要 的 特点 ， 即 : 
> 在 基于 相似 性 的 检索 中 ， 它 能 够 捕捉 到 很 好 的 形状 特征 。 它 能 够 捕 提 到 很 好 的 形状 特 
征 。 它 能 够 捕捉 到 很 好 的 形状 特征 。 它 能 够 捕捉 到 很 好 的 形状 特征 。 
> 它 反映 了 人 类 视觉 系统 的 感知 性 能 ， 并 提供 良好 的 泛 化 。 
> 它 非 常 适合 描述 非 刚体 运动 。 
> 能 较 好 地 支持 有 局 部 遮挡 的 形状 。 
> 很 好 地 支持 在 视频 和 图 像 中 常 出 现 的 因为 相机 参数 的 变化 而 形成 的 角度 转换 。 
> 它 的 表述 非常 紧凑 。 


这 个 描述 符 中 的 上 述 某 些 性 能 在 图 11.24 的 几 组 图 片 中 得 到 体现 ， 从 MPEG-7 的 形状 数据 库 
中 ， 根 据 实际 的 检索 结果 发 现 图 片 每 帧 含有 非常 相似 的 CSS。 


六 六 家 | 入 入 入 | 
党 交角 | > 和 和 >| DT 


(a) 形态 综合 性 能 (b) 鲁 棒 性 的 非 刚 性 运动 (c) 部 分 遮挡 的 鲁 棒 性 








图 11.24 ”描述 符 的 性 能 展示 


@ 三 维 形状 : 提供 了 3D 网 络 的 本 征 形状 描述 ， 基 于 三 维 形状 索引 (表达 三 维 曲面 的 局 部 曲 
率 特性 ) 来 表示 图 像 形状 特征 的 直方 图 。 主 要 用 于 在 3D 模型 数据 库 中 进行 搜索 、 检 索 和 
浏览 。 接 下 来 ， 向 读者 介绍 MPEG-7 描述 文档 的 组 成 ， 它 通常 包括 三 部 分 : 头 部 声明 、 
模式 (可 选 ， 用 来 定义 文档 中 的 标记 及 语法 关系 等 ) 以 及 文档 实例 。 
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声明 部 分 包括 名 称 空间 、 文 档 类 别 和 版 本 声明 ， 使 得 系统 能 够 正确 识别 该 文档 。 

文档 实例 部 分 是 指 具有 一 定 结构 的 具体 的 MPEG-7 描述 内 容 。MPEG-7 提供 了 描述 定义 语言 
(DDL) 来 描述 对 象 、 事 件 、 概 念 、 状 态 、 位 置 等 多 媒体 语义 信息 。 下 面 举 出 的 例子 是 基于 

MPEG-7 标准 对 一 张 名 称 为 Jim 的 人 物 图 像 进 行 图 像 颜色 特征 描述 的 XML 文档 实例 部 分 。 

它 包 含 了 一 个 ScalableColorType 类 型 的 描述 值 。 





读者 阅读 了 上 述 内 容 ， 应 该 对 MPEG-7 标准 中 的 颜色 描述 符 、 纹 理 描述 符 以 及 形状 描述 符 有 
了 较 好 的 认识 。 接 下 来 ， 向 读者 曾 述 基于 内 容 的 海量 视频 检索 系统 是 如 何 利 用 MPEG-7 标准 来 进 
行 工作 的 。 

基于 内 容 的 海量 视频 检索 系统 采用 主 颜色 、 边 缘 直 方 图 以 及 基于 轮廓 的 形状 这 三 种 描述 符 对 
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图 像 特征 进行 描述 。 具 体 来 说 ， 系 统 使 用 OpenCV 图 像 处 理 库 对 图 像 抽 取 颜 色 、 纹 理 、 形 状 等 底 
层 视觉 特征 后 ， 利 用 MPEG-7 library 实现 对 OpenCV 的 处 理 结果 进行 描述 。MPEG-7 library 是 
Joanneum Research 提供 的 一 套 C++ 类 ， 使 用 这 些 类 能 创建 并 操纵 多 媒体 内 容 描 述 对 象 ， 将 程序 中 
的 多 媒体 描述 对 象 序列 化 为 XML 文档 ， 或 者 根据 XML 文档 生成 多 媒体 内 容 描述 对 象 。 

MPEG-7 与 基于 内 容 的 海量 视频 检索 系统 的 联系 如 图 11.25 所 示 。MPEG-7 处 在 基于 内 容 的 
图 像 信息 检索 里 的 中 心 位 置 。MPEG-7 的 输入 是 对 图 像 数 据 分 析 的 结果 ，MPEG-7 的 输出 则 提供 
了 图 像 信息 提取 的 基础 。 


图 像 分 析 MPEG-7 图 像 提取 








图 11.25 MPEG-7 与 基于 内 容 的 海量 视频 检索 系统 的 联系 


具体 而 言 ， 在 基于 内 容 的 海量 视频 检索 系统 中 ， 考 虑 到 一 个 对 象 对 应 多 张 对 象 图 片 ， 对 象 的 
每 张 图 片 都 需要 进行 特征 提取 。 故 将 特征 值 存储 在 一 个 单独 的 XML 文件 中 ， 它 的 命名 规则 如 下 : 
视频 ID+ 对 象 ID+ 图 片 在 原始 视频 中 对 应 帧 号 。 例 如 : videol_objectl_5 表示 视频 videol 中 objectl 
的 第 5 帧 图 片 。 这 样 设计 的 优点 如 下 : 


e 在 进行 图 像 特征 值 匹配 时 ， 只 需要 对 列 族 中 的 几 列 数据 进行 匹配 ， 并 且 列 族 中 列 的 数目 是 
确定 的 ， 并且 列 的 数目 不 多 ,XML 文件 中 元 素 路 径 和 值 之 间 的 关系 是 简单 的 一 对 一 关系 ， 
不 需要 像 处 理 XML 文件 中 具有 多 对 多 关系 那样 还 需要 在 解析 XML 文件 时 对 文件 进行 编 
码 ， 简 化 了 系统 过 程 。 

ee 相 比 一 个 对 象 对 应 一 个 XML 文件 的 设计 方法 ， 因 为 某 个 对 象 对 应 多 少 张 对 象 图 像 是 不 可 
知 的 ， 需 要 用 <object frame>， 即 对 象 图 像 的 帧 号 作为 标签 来 分 隔 不 同 对 象 图 片 的 特征 值 。 
当 将 XML 文件 中 的 内 容 直接 解析 存 入 HBase 后 ， 列 族 中 的 列 的 数目 是 不 确定 的 ， 当 进行 
特征 值 匹 配 时 ， 假 设 需要 对 颜色 : 颜色 空间 ( color/colorspace ) 这 一 属性 进行 匹配 ， 则 需 
要 对 列 族 中 的 多 列 进 行 匹 配 。 

ee 不 需要 额外 对 图 像 所 属 的 对 象 以 及 视频 名 进行 存储 ， 因 为 匹配 完毕 后 ， 可 以 直接 根据 
RowKey 得 到 对 象 名 以 及 视频 名 。 


XML 文件 中 的 内 容 包括 颜色 特征 、 纹 理 特征 、 形 状 特征 ，XML 文件 中 内 容 的 数据 形式 可 以 
简化 表示 如 下 : 


<mpeg-7> 
<color>..</color> 
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<texture>..</texture > 


<shape>..</shape> 
</ mpeg-7> 


在 HBase 的 数据 库 设 计 中 可 以 将 XML 文件 中 的 path 值 进行 简化 后 设置 为 HBase 中 的 一 列 

当 需 要 对 用 户 上 传 的 图 片 进行 颜色 特征 匹配 时 ， 只 需要 对 由 路 径 mpeg-7/ color 简化 后 的 color 这 

- 列 数据 进行 匹配 。 在 查询 时 ， 结 合 这 三 种 图 像 特征 ， 并 对 三 种 特征 分 配 不 同 的 权 值 ， 最 后 按照 
匹配 度 从 高 到 低 ， 将 目标 视频 显示 给 用 户 浏 览 。 


2. 基于 内 容 的 海量 视频 检索 系统 数据 库 设计 


在 基于 内 容 的 海量 视频 检索 系统 的 设计 过 程 中 ， 对 后 台数 据 库 的 设计 是 非常 重要 的 环节 。 由 
于 基于 内 容 的 海量 视频 检索 系统 的 所 有 数据 都 是 存储 在 数据 库 中 的 ， 所 以 数据 库 设计 合理 与 否 将 
直接 影响 到 系统 的 性 能 。 结 合 系统 的 实际 应 用 ， 我 们 既 需 要 存储 经 过 识别 执行 特定 行为 的 海量 视 
频数 据 又 需要 存储 海量 的 对 象 图 片 。 当 系统 面 对 海 量 的 图 片 库 进行 图 像 检 索 以 及 对 特定 时 间 地 点 
及 人 体 进行 检索 时 ， 这 将 会 是 一 个 非常 困难 的 问题 。 因 此 ， 系 统 的 分 区 容忍 性 和 并 行 处 理性 能 是 
非常 重要 的 。 得 益 于 HBase 的 透明 化 可 伸缩 性 和 MapReduce 的 支持 ， 同 时 结合 从 监控 摄像 头 中 
获取 的 一 段 10 分 钟 左 右 的 监控 视频 大 小 约 为 SOMB 左右 ， 而 HDFS 并 不 适合 小 文件 的 存储 这 个 
应 用 实际 ， 使 用 HBase 作为 基于 内 容 的 海量 视频 检索 系统 的 数据 库 是 合理 和 高 效 的 。 
在 本 节 中 ， 将 重点 围绕 基于 内 容 的 海量 视频 检索 系统 在 HBase 上 的 数据 库 设 计 进 行 说 明 ， 并 
对 HBase 的 特点 进行 说 明 。 首 先 对 基于 内 容 的 海量 视频 检索 系统 进行 需求 分 析 。 系 统 中 的 数据 库 
模块 需要 与 基于 内 容 的 海量 视频 检索 系统 的 业务 逻辑 进行 交互 , 这 种 交互 主要 包括 以 下 几 个 部 分 
e@ 视频 数据 交互 。 需 要 对 从 监控 摄像 头 中 获取 的 原始 视频 进行 一 系列 的 处 理 ， 最 终 获取 人 体 
行为 识别 模块 的 结果 生成 小 视频 并 存储 在 HBase 数据 库 中 。 当 用 户 最 后 通过 客户 端 对 数 
据 进 行 查询 时 ， 数 据 库 将 执行 某 行为 的 相关 视频 返回 给 用 户 浏览 。 
@ 人 体 行为 识别 。 需 要 从 数据 库 中 提取 对 象 的 灰 度 图 片 ， 并 通过 业务 逻辑 层 中 的 人 体 行为 识 
别 算法 ， 对 对 象 的 行为 进行 识别 。 识 别 完成 后 ， 将 执行 某 一 动作 的 一 组 图 片 在 原始 视频 中 
的 起 始 帧 号 和 终止 帧 号 存 入 数据 库 中 ， 作 为 后 期 生成 执行 目标 行为 视频 的 依据 。 


根据 上 述 交 互 内 容 ， 可 以 得 到 数据 库 系 统 的 总 体 设 计 图 ， 如 图 11.26 所 示 。 

数据 库 模块 的 总 体 设计 思路 是 对 基于 内 容 的 海量 视频 检索 系统 提供 持久 化 的 数据 支持 ， 并 能 
够 结合 MapReduce 完成 数据 的 并 行 处 理 和 分 析 。 数据 库 设 计 方 面 需 要 能 够 完整 地 实现 基于 内 容 的 
海量 视频 检索 系统 的 功能 ， 并 尽量 提高 性 能 。 在 确定 数据 库 的 总 体 设计 思路 后 ， 进 一 步 完 成 对 系 
统 中 数据 库 表 的 设计 。 
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监控 摄像 头 




















图 11.26 数据 库 系 统 的 总 体 设计 图 


HBase 中 没有 数据 关系 ， 例 如 视频 和 对 象 图 片 这 两 个 实体 ， 但 在 HBase 数据 库 的 设计 中 仍然 
可 以 当做 实体 考虑 。 然 而 实体 之 间 的 关系 不 能 通过 类 似 于 关系 型 数据 库 中 的 外 键 等 约束 来 保证 ， 
需要 按照 HBase 的 特点 来 对 这 种 关系 进行 体现 。 

通过 对 系统 进行 分 析 ， 可 以 得 到 4 个 实体 : 用 户 、 原 始 视频 、 对 象 图 片 和 视频 片段 。 用 户 是 
系统 对 外 提供 功能 的 使 用 者 ， 用 户 具 有 对 系统 进行 查询 的 能 力 。 原 始 视频 是 从 监控 摄像 头 中 直接 
获取 的 长 约 10 分 钟 的 视频 ， 以 视频 ID 作为 划分 ， 包 含 了 视频 数据 以 及 视频 的 记录 时 间 和 记录 的 
事件 地 点 这 些 信 息 ， 以 供用 户 后 期 的 检索 使 用 。 对 象 图 片 是 系统 对 原始 视频 进行 处 理 后 得 到 的 包 
含 运动 物体 的 图 片 ， 主 要 用 于 用 户 对 视频 片段 的 检索 。 视 频 片段 是 系统 最 终 需要 展示 给 用 户 浏览 
的 信息 ， 它 是 特定 对 象 执行 某 些 特定 行为 的 视频 。 

如 果 是 在 关系 型 数据 库 中 ， 按 照 数 据 关 系 模 型 ， 对 于 这 些 实体 ， 一 个 用 户 可 以 查看 多 段 视频 
片段 ， 每 段 视频 片段 可 以 被 多 个 用 户 查看 ， 所 以 用 户 和 视频 片段 之 间 形 成 一 种 多 对 多 的 关系 。 对 
于 原始 视频 与 对 象 图 片 ， 一 段 原始 视频 可 以 拥有 一 到 多 张 对象 图 片 ， 由 于 在 系统 的 处 理 中 ， 出 现 
在 不 同 视频 中 的 同一 对 象 会 被 处 理 成 不 同 对 象 ， 假 设 张 三 出 现在 视频 1 和 视频 2， 最 后 张 三 可 能 
会 被 处 理 成 视频 1 中 的 对 象 1 和 视频 2 中 的 对 象 5， 即 每 张 对 象 图 片 只 对 应 着 一 段 原始 视频 ， 所 
以 视频 和 对 像 图 片 之 间 形 成 一 种 一 对 多 的 关系 。 对 于 原始 视频 和 视频 片段 ， 一 段 原始 视频 可 以 对 
应 多 个 视频 片段 ， 而 视频 片段 只 对 应 一 段 原始 视频 ， 故 两 者 是 一 对 多 的 关系 。 而 视频 片段 与 对 象 
图 片 同样 是 一 对 多 的 关系 ， 视 频 片段 是 由 对 象 图 片 组 合成 的 。 于 是 在 传统 的 RDBMS 数据 库 设 计 
中 ， 会 得 到 如 图 11.27 所 示 的 ER 图 。 
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1127 ER 图 


可 以 根据 ER 图 得 到 关系 型 数据 库 中 的 表格 设计 ， 如 图 11.28 所 示 。 












时 间 
地 点 
视频 数据 











图 11.28 ”数据库 表格 设计 


这 样 将 一 对 多 或 者 多 对 多 关系 分 裂 成 多 张 表 的 方式 ,在 关系 数据 库 中 往往 能 达到 更 高 的 范式 ， 
具有 减少 见 余 、 增 强 一 致 性 并 保证 完整 性 的 作用 。 然 而 在 NoSQL 数据 库 中 ， 由 于 没有 关系 的 约 
束 ， 此 处 必须 考虑 到 下 面 将 要 提 到 的 HBase 的 特点 来 设计 合适 的 数据 库 模 型 。 

原始 视频 与 对 象 图 片 之 间 的 关系 是 一 对 多 的 关系 ， 一 段 视频 中 存在 多 个 对 象 。 基 于 用 户 可 能 
存在 观看 原始 视频 数据 的 需要 ， 将 原始 视频 存储 在 单独 的 表 中 ， 并 在 该 表 中 存储 视频 发 生 的 时 间 
段 以 及 监控 摄像 头 所 处 的 地 点 ， 以 供 后 期 用 户 查 询 使 用 。 而 一 个 对 象 对 应 多 张 图 片 ， 且 对 象 图 片 
的 数目 不 定 。 考 虑 到 对 象 图 片 的 特征 提取 时 ,假设 一 个 对 象 对 应 N 张 图片 ， 则 需要 对 这 N 张 图 片 
都 进行 特征 提取 。 可 以 结合 视频 名 称 、 对 象 名 称 以 及 图 片 的 帧 号 作为 图 像 表 中 的 关键 字 ， 将 图 片 
的 特征 描述 项 作为 同一 列 族 中 的 一 列 进行 存储 。 

原始 视频 与 视频 片段 是 一 对 多 的 关系 。 在 进行 数据 库 设计 时 ， 可 以 将 视频 片段 存 入 一 张 单独 
的 表 中 ， 行 关键 字 设 置 为 与 视频 ID 相关 ， 同 一 视频 对 应 多 段 视频 片段 。 

视频 片段 与 对 象 图 片 之 间 的 关系 也 是 一 对 多 的 关系 ， 视 频 片段 由 多 张 对 象 图 片 组 成 。 在 数据 
库 设计 中 ， 可 以 将 对 象 图 片 存储 在 一 张 图 片 表 中 ， 视 频 片 段 名 中 通过 与 该 对 象 的 起 始 帧 和 终止 帧 
关联 ， 来 体现 这 一 关系 。 

在 数据 表 的 设计 过 程 中 ， 除 了 需要 注意 以 上 内 容 ， 还 需要 结合 HBase 数据 库 的 特点 进行 设 
计 。HBase - Hadoop Database， 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系统 ， 
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与 Hadoop 一 样 ，Hbase 目标 主要 依靠 横向 扩展 ， 通 过 不 断 增加 廉价 的 商用 服务 器 ， 来 增加 系统 的 
计算 能 力 和 存储 能 力 。 在 进行 数据 库 设计 时 需要 重点 关注 HBase 的 以 下 特点 : 


(1) HBase 拥有 较为 简单 的 数据 模型 。 由 于 不 存在 关系 约束 等 ， 所 以 在 数据 库 表 的 设计 上 应 
该 简单 些 。 

(2) HBase 面向 列 存储 的 特点 。 读 取 同 列 数 据 往往 具有 更 高 的 性 能 ， 在 设计 中 应 该 考虑 列 的 
划分 。 

(3) HBase 中 空 单元 格 不 占 空 间 。 其 实 这 个 特点 是 面向 列 存储 的 结果 ， 这 使 得 读者 可 以 不 必 
像 设计 关系 数据 库 那 样 ， 将 一 对 多 和 多 对 多 关系 分 裂 成 多 张 表 来 存储 ， 可 以 直接 将 数据 放 入 一 张 
大 表 中 ， 省 去 空 单元 格 。 

(4) HBase 的 列 是 可 以 动态 添加 的 。 没 有 固定 的 模式 使 得 HBase 数据 库 设 计 的 灵活 性 大 增 ， 
客户 端 可 以 随时 增加 新 的 列 ， 改 变现 有 的 模式 。 

(5) HBase 只 支持 通过 RowKey 查询 ， 访 问 HBase 表 中 的 行 只 有 三 种 方式 ， 通 过 单个 RowKey 
访问 、 通 过 RowKey 的 range 及 进行 全 表 扫 描 。 要 尽量 遵循 HBase 的 行 关键 字 (RowKey) 设计 原则 ， 
具体 如 下 : 


首先 是 RowKey 的 长 度 原则 。 行 关键 字 可 以 是 任意 字符 串 〈 最 大 长 度 是 64KB， 实 际 应 用 中 
长 度 一 般 为 10~100B) ， 在 HBase 内 部 ，RowKey 保存 为 字 节 数组 。 在 原则 上 RowKey 应 该 越 短 
越 好 ， 最 好 不 要 超过 16 个 字 节 ， 原 因 一 是 数据 的 持久 化 文件 HFile 中 是 按照 KeyValue 存储 的 ， 
如 果 RowKey 过 长 ， 比 如 100 个 字 节 ，1000 万 列 数据 只 计算 RowKey 就 要 占用 100*1000 万 =10 
亿 个 字 节 ， 将 近 1GB 数据 ， 这 会 极 大 影响 HFile 的 存储 效率 ;原因 二 是 MemStore 将 缓存 部 分 数 
据 到 内 存 ， 如 果 RowKey 字段 过 长 ， 内 存 的 有 效 利用 率 会 降低 ， 系 统 将 无 法 缓存 更 多 的 数据 ， 这 
会 降低 检索 效率 。 因 此 RowKey 的 字 节 长 度 越 短 越 好 。 原 因 三 是 目前 操作 系统 都 是 64 位 系统 ， 
内 存 8 字 节 对 齐 。 控 制 在 16 个 字 节 ，8 字 节 的 整数 倍 利用 操作 系统 的 最 佳 特性 。 

其 次 是 RowKey 的 散 列 原则 ， 如 果 RowKey 是 按时 间 戳 的 方式 递增 ， 不 要 将 时 间 放 在 二 进 制 
码 的 前 面 ， 建 议 将 RowKey 的 高 位 作为 散 列 字段 ， 由 程序 循环 生成 ， 低 位 放 时 间 字 段 ， 这 样 将 提 
高 数据 均衡 分 布 在 每 个 RegionServer 实现 负载 均衡 的 几率 。 如 果 没 有 散 列 字段 ， 首 字段 直接 是 时 





载 将 会 集中 在 个 别 RegionServer， 降 低 查 询 效 率 。 

最 后 是 RowKey 唯一 原则 ， 必 须 在 设计 上 保证 其 唯一 性 。 

在 遵循 上 述 原则 的 同时 ， 在 设计 RowKey 时 ， 还 需 充 分 利用 RowKey 排序 存储 的 特性 ， 将 经 
常 一 起 读 取 的 行 存储 放 到 一 起 ， 这 样 可 以 大 幅度 提高 数据 库 查 找 性 能 。 


(6) HBase 中 的 更 新 操作 都 对 应 着 一 个 时 间 戳 。 在 设计 时 可 以 适当 地 考虑 通过 时 间 戳 来 记录 
数据 的 版 本 号 ， 或 者 对 数据 进行 备份 等 。 
根据 基于 内 容 的 海量 视频 检索 系统 实体 间 的 关系 ， 结 合 利 用 HBase 的 特点 ， 对 系统 进行 数据 
库 设计 以 满足 系统 的 需求 。 具 体 而 言 ， 基 于 内 容 的 海量 视频 检索 系统 的 数据 库 共 包 括 三 张 表 ， 分 
别 为 视频 表 、 图 片 表 和 视频 片段 表 。 表 11.6~11.8 为 HBase 中 的 数据 库 表 设 计 。 
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(1) 视频 表 (video_infor) 的 设计 


@” 列 和 列 族 : 视频 表 主 要 用 来 存储 与 原始 视频 相关 的 信息 ， 将 视频 发 生 的 时 间 、 视 频 内 容 记 
录 的 地 点 基于 原始 视频 数据 存 入 列 族 video_infor 中 。 当 用 户 通过 客户 端 进行 检索 时 ， 需 
要 对 事件 时 间 和 事件 发 生地 点 这 两 个 条 件 进行 第 选 。 此 时 直接 读 取 视频 表 中 video time 
和 video_place 这 两 列 中 的 特定 RowKey 范围 内 的 数据 进行 匹配 。 当 用 户 获 取 满 意 相 关 视 
频 片 段 后 ， 还 可 以 查看 视频 表 中 的 原始 视频 数据 作为 进一步 的 参考 。 

@ 行 关键 字 : 将 行 关键 字 设置 为 视频 的 ID 号 ， 一 行 数 据 保存 一 段 视频 的 基本 信息 。 视 频 ID 
号 在 后 面 将 要 讨论 的 图 片 表 以 及 视频 片段 表 中 都 有 应 用 ， 具 体 的 内 容 请 阅读 下 面 的 内 容 。 


表 11.6 视频 表 设 计 


行 关键 字 列 族 Column family: 
RowKey Video_infor 


ET ET 


视频 时 间 
视频 ID 
原始 视频 数据 





(2) 图 片 表 (picture) 的 设计 


@” 列 和 列 族 : 图 片 表 主要 记录 对 象 的 原始 图 片 以 及 图 片 的 各 种 信息 。 由 于 系统 需要 按照 CBIR 
算法 来 检索 图 片 ， 所 以 需要 预先 对 图 片 的 内 容 特 征 信息 进行 提取 ， 并 存 入 数据 库 中 ， 即 将 
颜色、 形状 和 纹理 等 特征 值 存放 在 列 族 picture 中 。HBase 存放 图 像 特 征 具 有 较 好 的 可 扩 
展 性 ， 对 于 后 期 的 检索 特征 算法 修改 具有 很 好 的 兼容 性 。 与 此 同时 ， 还 需要 将 对 象 图 片 和 
对 象 灰 度 图 片 存放 入 列 族 picture 中 。 对 象 图 片 用 于 提取 行为 识别 模块 中 的 识别 结果 生成 
对 象 表 中 的 执行 特定 动作 的 视频 片段 ， 即 显示 给 用 户 的 视频 由 它 组 合成 。 而 对 和 象 灰 度 图 
则 是 作为 人 体 行为 识别 模块 的 输入 。 

@ 行 关 键 字 : 考虑 到 一 个 对 象 对 应 多 张 对 象 图 片 ， 且 在 之 前 对 所 有 对 象 图 片 进行 特征 值 提取 并 
写 入 XML 文件 时 ， 一 个 对 象 的 每 张 图 片 都 对 应 一 个 单独 的 XML 文件 。 利 用 HBase 行 关键 
字 的 有 序 特 性 ， 可 以 将 对 象 图 片 的 行 关键 字 直 接 设计 为 XML 文件 的 名 字 ， 即 “视频 ID+ 对 象 
ID+ 图 片 在 原始 视频 中 对 应 帧 号 ”， 有 关 具 体 的 实例 ， 读 者 可 以 参考 上 一 部 分 的 内 容 。 


表 11.7 图 片 表 设 计 





























行 关键 字 列 族 Column family: 

RowKey Picture 
列 标签 备注 
object_picture 对 象 图 片 

对 象 图 片 ID | gray picture 对 象 灰 度 图 
color 颜色 特征 
texture 纹理 特征 
shape 形状 特征 
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(3) 视频 片段 表 (video_segment) 的 设计 


®” 列 和 列 族 : 视频 片段 表 主要 记录 对 象 执 行 某 些 行为 的 视频 片段 信息 。 考 虑 到 人 物 对 象 的 行 
为 数目 是 有 限 的 ， 将 对 象 执行 走 、 跑 、 跳 等 动作 的 视频 片段 设置 为 列 族 video_segment 中 
的 一 列 ， 方 便 基 于 内 容 的 海量 视频 检索 系统 在 行为 识别 模块 上 的 拓展 性 ， 例 如 现在 系统 可 
以 识别 打架 这 一 行为 ， 只 需要 在 列 族 中 再 添加 fight_segment 即 可 。 在 视频 片段 表 的 设计 
中 ， 具 体 而 言 ，run_segment、jump_segment、walk_ segment 这 三 项 是 用 于 记录 对 象 执行 相 
应 动作 的 视频 片段 该 列 中 存储 的 视频 名 称 为 “视频 ID+ 对 象 ID+ 起 始 帧 号 + 终止 帧 号 ” 
注意 ， 这 里 的 帧 号 指 的 是 在 原始 视频 中 的 帧 号 。 

@ 行 关键 字 : 考虑 到 对 象 特 定 动作 下 的 视频 片段 可 能 是 多 段 ， 例 如 : 同一 对 象 在 一 段 时 间 内 
执行 跑 的 动作 的 视频 片段 就 有 可 能 是 多 段 。 将 行 关键 字 设 置 为 “视频 ID+ 对 象 ID+ 片 段 
ID”， 对 同一 对 象 ， 片 段 ID 按 从 1 到 N 的 升序 排列 ， 即 一 个 视频 片段 一 行 。 因 为 同一 个 
对 象 执行 各 种 动作 的 视频 片段 数目 不 一 样 所 以 采用 上 述 方式 设置 关键 字 的 好 处 还 在 于 便 
于 统计 特定 对 象 执行 各 种 动作 的 视频 数目 。 例 如 : 视频 1 的 ID 为 video01， 其 中 对 象 1 
的 ID 为 object01， 一 共有 3 段 跑步 的 视频 片段 ， 有 7 段 跳 远 的 视频 片段 ， 有 5 段 走 路 的 
视频 片段 ， 那 么 在 HBase 中 ，RowKey 就 为 videol_objectl_1~videol_objectl_7 这 样 的 连 
续 7 行 。 在 统计 该 对 象 走路 的 视频 片段 数目 时 ， 可 以 调用 HBase 提供 的 API， 获 取 列 族 
Video_segment 下 列 walk_segment 的 非 空 项 数目 ， 也 就 是 视频 1 中 的 对 象 1 走路 视频 片段 
的 数目 。 在 HBase 中 ， 空 的 单元 格 并 不 占据 存储 空间 ， 这 也 为 上 述 的 设计 方式 提供 了 支 
持 。 





表 11.8 视频 片段 表 设计 


行 关键 字 列 族 Column family: 
RowKey video_segment 


-一 二 一 一 一 





3. 数据 库 模块 交互 设计 
基于 内 容 的 海量 视频 检索 系统 中 存在 着 视频 表 、 图 片 表 和 视频 片段 表 这 三 张 表 ， 那 么 这 些 表 


是 如 何 配合 系统 的 业务 逻辑 模块 完成 系统 功能 呢 ? 本 小 节 围绕 数据 库 模块 与 系统 业务 逻辑 的 交互 
设计 进行 说 明 。 


(1) 视频 片段 搜索 交互 
视频 片段 的 的 搜索 过 程 如 下 : 首先 将 用 户 选 择 的 事件 时 间 、 事 件 地 点 与 视频 表 中 的 相关 数据 


进行 匹配 ， 得 到 视频 ID。 接 着 结合 视频 ID， 将 用 户 上 传 图 片 的 特征 信息 与 数据 库 图 片 表 中 的 特 
征 信息 进行 对 比 得 到 对 象 图 片 ID， 并 获取 视频 ID 和 对 象 DD。 最 后 青 根据 用 户 选择 的 人 体 行为 名 
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称 以 及 由 命中 结果 集 得 到 的 视频 ID 和 对 象 ID 到 视频 片段 表 中 进行 查询 ， 最 后 获取 命中 的 视频 片 
段 内 容 并 展示 给 用 户 的 客户 端 。 整 个 交互 过 程 如 图 11.29 所 示 。 


视频 表 











2. 读 取 事 件 时 间 、 地 点 


汪 让 坟 入 下风 3. 结合 视频 ID 进行 特征 值 匹配 






蔡 十 内 容 的 海量 视频 构 


索 系 统 2 


和 4 返回 对 象 图 片 ID 








7, 展示 视频 片段 


6. 返回 命中 视频 片段 5. 结合 对 象 ID 查询 


视频 片段 表 
11.29 查询 视频 片段 


(2) 行为 识别 数据 交互 

基于 内 容 的 海量 视频 检索 系统 行为 识别 模块 的 数据 与 数据 库 的 交互 也 非常 频繁 ， 详 细 过 程 如 
下 : 首先 ， 需 要 读 取 图 片 表 中 的 对 象 灰 度 图 ， 并 得 到 对 象 图 片 ID; 然后 行为 识别 模块 对 对 象 灰 度 
进行 处 理 ， 识 别 出 人 体 的 行为 ， 结 合 对 象 图 片 ID 生成 执行 对 应 动作 的 视频 片段 ， 并 将 内 容 写 入 
视频 片段 表 中 。 整 个 交互 过 程 如 图 11.30 所 示 。 


1. 读 取 灰 度 图 2. 写 入 视频 片段 


各 于 内 容 的 海量 视频 科 本 
图 片 表 索 系 统 视频 片段 表 


图 11.30 行为 识别 数据 交互 


本 节 中 的 交互 操作 围绕 着 HBase 中 的 表 ， 并 没有 涉及 HDFS 和 MapReduce 的 相关 交互 ， 有 
关 HBase 和 HDFS 与 MapReduce 间 的 操作 ， 可 以 阅读 本 书 的 相关 内 容 。 

4. 基于 内 容 的 海量 视频 检索 系统 的 数据 库 实现 

在 完成 了 数据 库 的 设计 后 ， 接 下 来 需要 对 它 进 行 具体 实现 。 系 统 采 用 Java API， 利 用 Eclipse 
进行 客户 端 编程 实现 。 接 下 来 主要 介绍 数据 库 的 模块 类 的 交互 图 以 及 核心 类 的 实现 过 程 。 

由 于 在 基于 内 容 的 海量 视频 检索 系统 的 数据 库 设计 中 ， 有 视频 表 、 图 片 表 和 视频 片段 表 三 张 
不 同 的 表 ， 而 对 于 每 张 表 需 要 提供 的 方法 都 不 尽 相 同 ， 因 此 ， 对 于 每 张 表 提供 一 个 单独 的 类 进行 
操作 是 有 必要 的 ,然而 这 三 张 表 也 具有 一 些 公共 操作 , 可 以 将 其 抽象 为 一 个 表 的 基本 数据 操作 类 ， 
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于 是 形成 了 如 图 11.31 所 示 的 类 图 。 





加 
TI 

















Video Video_Segment 








+deleteVideo( : String ): void +createVideoSegment( : String, : String, : String ): void 
+UpdateVideo( : String, > ~ vok +deleteVideoSegment( : String ) : void 

+createVideo( : String, : 9，: String ) : vok +upddateVideoSegment( : String, : String, : String ) : void 
+selectVideo( : String，: ) :<result> +selectVideoSegment( : String, : String ) : <result> 














+createpicture( : String, er : String, : String, ; String ) : void 


+Updatepicture( : Strint : String，: String, : String ) : void 
+Selectpicture( : String, :St :String，: String ) : <resultscanner> 





图 11.31 数据 库 模块 类 图 


从 图 11.31 中 可 以 看 出 , 数据库 模块 主要 由 5 个 类 组 成 ,其 中 HBaseBasicOperation 类 为 HBase 
的 基本 操作 类 ， 该 类 是 一 个 通用 的 操作 类 。 其 余 的 Base、Video、Picture、Video_Segment4 个 类 
是 表 的 操作 类 ， 这 些 类 使 用 了 通用 操作 类 封装 好 的 HBase 操作 接口 。 下 面 分 别 介绍 这 5 个 类 : 


e HBaseBasicOperation 类 : 这 个 类 是 一 个 对 HBase 基本 操作 进行 了 封装 的 通用 类 。 该 类 主 
要 是 利用 HBase 提供 的 API， 对 HBase 的 配置 文件 等 进行 初始 化 ， 并 实现 了 包括 创建 、 
插入 、 删 除 、 查 找 等 基本 操作 的 通用 方法 。 

@ Base 类 : 这 个 类 是 对 表 操 作 的 基本 类 。 该 类 是 Video、Photo 和 Video_Segment 等 类 的 基 
类 ， 主 要 是 抽象 出 了 这 些 特定 表 的 一 些 共同 操作 ， 提 高 代码 复 用 率 和 开发 效率 。 该 类 直接 
调用 HBaseBasicOperation 类 的 方法 ， 实 现 了 表 的 初始 化 操作 和 读 写 操作 等 。 

® Video 类 : 这 个 类 主要 实现 了 对 视频 表 的 相关 操作 ， 包 含 事件 时 间 、 地 点 以 及 原始 视频 数 
据 的 信息 。 该 类 通过 行 关键 字 与 Photo 类 相 联系 。 

@ Picture 类 : 该 类 主要 实现 了 对 图 片 表 的 相关 操作 ， 包 括 将 用 户 上 传 的 图 片 信 息 插入 数据 
库 、 查 询 特定 特征 信息 、 获 取 对 象 图 片 、 获 取 灰 度 图 片 等 方法 。 该 类 通过 行 关键 字 和 
Video Segment 类 关联 。 

ee Video_ Segment 类 : 该 类 主要 实现 了 对 视频 片段 表 的 相关 操作 。 包 括 获 取 特 定名 称 的 视频 
片段 等 方法 。 该 类 通过 行 关 键 字 与 Video 表 类 和 Photo 类 进行 关联 。 


接 下 来 ， 介 绍 一 下 这 些 核心 类 的 实现 ， 由 于 篇 幅 有 限 ， 在 这 里 只 做 简要 说 明 。 
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(1) HBaseBasicOperation 类 
作为 通用 的 HBase 操作 类 ， 该 类 中 是 直接 采用 HBase API 对 数据 库 进 行 操作 的 。 该 类 首先 完 
成 配置 初始 化 ， 设 置 一 些 配 置信 息 ， 并 在 初始 化 按照 设置 参数 获得 一 个 HBase 配置 实例 conf。 完 
成 初始 化 配置 后 ， 便 可 以 对 HBase 进行 操作 。 要 对 HBase 进行 管理 ， 例 如 表 的 创建 和 删除 、 列 出 
表 清 单 以 及 表 结构 更 改 等 ， 则 使 用 HBaseAdmin 类 。 一 旦 表 被 创建 ， 则 需要 通过 HTable 类 的 实例 
来 操作 该 表 。 每 次 可 以 增加 一 行内 容 到 一 个 表 中 。 对 于 插入 操作 ， 则 需要 创建 一 个 Put 类 的 对 象 
实例 ， 并 指明 目标 列 名 (target column)、 值 (value) 以 及 一 个 可 选 的 时 间 戳 ， 最 后 使 用 HTable.put 
(Put) 方法 执行 插入 操作 。 要 获取 表 中 已 插入 的 值 ， 则 使 用 Get 类 ，Get 类 的 实例 可 以 被 指定 为 
获取 指定 行 的 所 有 内 容 或 者 仅仅 获取 该 行 中 的 某 一 个 单元 格 的 值 。 在 创建 了 Get 的 一 个 实例 后 ， 
调用 HTable.get (Get) 执行 查询 ， 返 回 结果 是 一 个 Result 类 的 实例 。 还 可 以 使 用 Scan 类 建立 一 
个 扫描 器 〈scanner)， 这 类 似 于 数据 库 中 的 游标 。 在 创建 并 配置 了 Scan 类 的 实例 后 ， 则 调用 
HTable.getScanner (Scan) 获取 一 个 ResultScanner 类 的 实例 ， 该 实例 就 是 查询 得 到 的 结果 集 ， 
ResultScanner 事实 上 是 Result 实例 的 一 个 集合 ， 循 环 调用 ResultScannernext() 方 法 可 以 获取 每 个 
Result 实例 。 一 个 Result 是 一 组 KeyValue 的 集合 ， 它 具有 将 不 同类 型 的 返回 值 进 行 打包 的 功能 。 
使 用 Delete 类 来 删除 表 中 的 内 容 , 用 户 可 以 设 定 Delete 类 的 实例 用 于 删除 一 个 独立 的 单元 格 或 者 
整个 列 族 ， 并 且 将 该 实例 传递 给 HTable.delete (Delete) 来 执行 。 


(2) Base 类 

Base 类 是 对 表 进 行 操 作 的 基本 类 ， 该 类 主要 通过 HBaseBasicOperation 类 中 提供 的 方法 实现 
各 个 表 中 的 公共 操作 。 首 先 ，Base 中 存在 一 个 String 类 型 的 变量 tableName， 在 子 类 继承 时 ， 应 
该 首先 通过 构造 方法 对 该 变量 进行 赋值 ， 以 指明 子 类 操作 的 表 名 。 所 以 该 类 提供 了 一 个 带 参数 的 
构造 方法 Base (String tableName) 用 以 实现 该 需求 。 接 下 来 简要 叙述 Base 提供 的 一 些 基本 操作 。 
Base 主要 实现 增删 改 查 的 操作 ，createTable 是 用 来 创建 一 个 名 为 tableName 的 表 ，insertRow 用 于 
向 HBase 中 插入 一 行 信息 ，deleteRow 用 于 删除 表 中 行 关 键 字 为 RowKey 的 一 列 。 上 述 方法 在 这 
里 都 不 做 详细 介绍 ， 下 面 主 要 以 selectRow 这 个 查询 方法 作为 例子 详细 说 明 。 

selectRow 方法 用 于 选择 表 中 行 关键 字 为 RowKey 的 一 行 信息 ， 并 返回 一 个 Result 结果 集 。 

Protected Result selectRow(String RowKey) { 


Result r = null; 

try { 

r= HBaseBasicOperation.selectRow (tableName, RowKey); 
} catch (IOException e) { 

e.printSstackTrace(); 

return r; 


' 


通过 直接 调用 HBaseBasicOperation 类 的 selectRow(tableName,RowKey) 方 法 ， 返 回 的 结果 是 
一 个 定义 在 org.apache.hadoop.hbase.clent.Result 中 的 Result 实例 。 由 于 不 同 的 表 对 结果 的 解析 不 
同 ， 所 以 基本 操作 类 中 不 对 结果 实例 进行 分 析 ， 而 直接 返回 给 上 层 具体 表 的 操作 类 中 。 
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(3) Video 类 

Video 类 是 针对 视频 表 的 操作 类 ， 它 继承 了 Base 类 ， 其 基本 操作 主要 是 查询 操作 ， 即 
selectVideo， 实 现 以 表 名 、 列 族 名 以 及 列 名 作为 输入 条 件 ， 获 得 结果 。 考 虑 到 Video 类 的 基本 操 
作 都 可 以 直接 调用 基 类 中 的 操作 直接 完成 ， 在 这 里 不 做 详细 介绍 。 


(4) Picture 类 

Picture 类 是 针对 图 片 表 的 操作 类 , 它 继承 了 Base 类 , 并 封装 了 需要 对 图 片 进行 操作 的 基本 方 
法 。 有 具体 而 言 包 括 图 片 信息 的 插入 、 删 除 和 更 改 ， 并 且 每 次 图 像 检索 都 需要 查询 数据 库 中 的 一 部 
分 图 像 特 征 ， 因 此 该 类 还 包含 了 对 图 像 信息 ， 特 别 是 特征 信息 的 查找 获取 等 方法 。Picture 类 除 查 
询 以 外 的 方法 与 Video 类 类 似 ， 所 以 下 面 主要 介绍 Picture 类 查询 数据 的 方法 selectPhoto。 

此 方法 主要 实现 获取 特定 行 关键 字 范 围 内 的 特定 列 族 中 某 一 列 数据 的 多 行 信息 ， 并 返回 一 个 
ResultScanner 结果 集 。 

Protected ResultScanner selectPhoto(String tableName,String RowKey,String 
column, String qualifier){ 

try { 

HTable table=new HTable (conf,tableName); 
Scan scan = new Scan(); 
scan .addColumn (Bytes.toBytes (column), Bytes.toBytes (qualifier)); 
scan.setFilter (new PrefixFilter (RowKey.getBytes()); 
ResultScanner rs= table.getScanner (scan); 
}catch (IOException e) 
| 
e.printstackTrace (); 
} 
return rs; 


出 


此 处 使 用 了 PrefixFilter 这 种 过 滤器 ，PrefixFilter 是 行 关键 字 的 前 缀 过 滤器 ， 这 个 过 滤器 的 主 
要 功能 是 命中 所 有 以 特定 前 级 开头 的 行 关键 字 所 在 的 行 。 例 如 前 缀 是 video01_object 01， 那 么 例 
如 行 关键 字 为 video01_object01_01， 你 好 video01_object01_19 等 行 会 被 命中 ， 而 
video01_object02_01、video02_object01_19 等 不 是 以 该 前 级 开头 的 行 被 过 滤 掉 。 

PrefixFilter 的 构造 方法 为 ，PrefixFilter (final byte [] prefix)。 因 此 创建 一 个 PrefixFilter 过 滤器 
时 需要 传 入 一 个 Byte 数组 格式 的 前 级 ， 作 为 过 滤 条 件 。 此 外 ，PrefixFilter 提供 了 一 个 getPrefix0 
方法 用 于 获取 过 滤器 中 的 前 缀 。 

(5) Video_Segment 类 

Video_Segment 类 也 是 Base 类 的 子 类 ， 实 现 了 视频 片段 的 基本 操作 ， 由 于 其 基本 操作 与 之 前 
两 种 类 类 似 ， 此 处 不 再 袭 述 。 

在 完成 各 个 核心 类 的 实现 后 ， 运 行程 序 可 以 创建 数据 库 中 的 三 个 表 ， 并 结合 实际 需要 对 各 表 
进行 操作 ， 最 后 实现 系统 的 功能 。 
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1. 规则 创建 过 程 


(1) 规则 的 定义 

这 里 所 说 的 规则 主要 是 指 行为 规则 ， 它 根据 粒度 的 大 小 分 为 三 类 ， 分 别 是 pose、action 和 
activity。 pose 指 的 是 一 个 姿势 , 它 代 表 这 一 帧 图 片 中 某 一 对 象 的 某 个 状态 , 如 图 11.32 为 一 个 pose。 
action 指 的 是 动作 ， 它 代表 一 种 不 可 再 细 分 的 行为 ， -组 姿势 组 成 ， 如 走 、 跑 、 跳 。activity 代 
表 的 是 行为 ， 由 一 系列 的 动作 组 成 ， 如 三 级 跳 等 。 
































图 11.32 一 个 pose 


A 





本 系统 的 设计 中 ，pose、action 和 activity 作为 三 个 类 进行 设计 和 实现 的 。 类 图 如 图 11.33 所 示 。 
其 中 pose 只 由 一 个 属性 angle 组 成 ， 指 的 是 该 pose 按照 星 型 骨架 方法 提取 的 行为 特征 值 以 “|” 分 
割 ， 拼 接 组 成 的 字符 串 ， 如 angle=01|92|93|94|95|xclyc。action 包含 name、num、feature、v 和 和 a 共 5 
个 属性 。name 代表 action 的 名 字 ， 如 走 ; num 代表 这 个 action 规则 是 由 几 帧 图 片 组 成 的 ;feature 
代表 行为 特征 值 ， 类 似 于 将 多 个 angle 以 “|” 分 割 ， 拼 接 起 来 , v、a 分 别 表示 此 规则 中 行为 的 速度 
以 及 加 速度 。activity 的 类 定义 与 action 相同 ， 只 是 没有 速度 和 加 速度 的 定义 ， 这 里 不 再 详细 描述 


































action 
pose -name 
-angle -num 
-feature 
+createpose() -vy 
-a 
+createaction() 
-num 
| -feature 


-name 


+createactivity() 


图 11.33 规则 的 类 图 





(2) 创建 规则 
创建 规则 分 为 三 类 ， 分 别 是 pose 规则 创建 、action 规则 创建 以 及 activity 规则 创建 。 下 面 详 
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细 描 述 pose 规则 、action 规则 、activity 规则 的 创建 过 程 。 
@ pose 规则 创建 


对 于 pose 规则 特征 的 创建 ， 输 入 pose 对 应 的 图 片 路 径 ， 再 按照 前 面 所 述 的 星 型 骨架 方法 提 
取 行为 特征 值 然后 将 行为 特征 值 转化 为 字符 串 型 并 拼接 起 来 形成 一 个 新 的 字符 串 变量 赋 给 pose 
类 的 angle 变量 即 可 。pose 规则 创建 的 流程 图 如 图 11.34 所 示 。 







输入 pose 图 片 路 径 
星 型 骨架 方法 提取 特征 值 


特征 值 字符 串 拼接 










图 11.34 pose 规则 特征 的 提取 流程 
pose 规则 特征 的 提取 过 程 的 伪 代 码 如 下 。 
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实战 大 数据 】 





eaction 与 activity 规则 的 创建 


对 于 action 以 及 activity 规则 的 创建 ， 与 pose 类 似 ， 即 输入 路 径 ， 然 后 按照 星 型 骨架 方法 对 
每 帧 图 片 进行 处 理 ， 获 取 每 帧 图 片 的 行为 特征 值 ， 将 所 有 行为 特征 值 拼 接 起 来 作为 action 或 者 
activity 的 特征 。 但 不 同 的 是 ， 涉 及 训练 的 过 程 ， 因 此 输入 的 图 片 文件 夹 里 ， 可 能 包含 几 组 该 行为 
过 程 的 图 片 ， 对 每 组 进行 处 理 ， 然 后 求 取 平 均值 ， 作 为 这 个 规则 的 特征 。action 的 创建 过 程 的 流 
程 图 如 图 11.35 所 示 。 






输入 action 图 片 组 路 径 ， 每 组 的 图 片 数 
计算 图 片 组 里 行为 图 片 组 数 


Yes 
星 型 骨架 方法 获取 规则 特征 值 星 型 肯 架 方法 获取 每 组 规则 特征 值 ， 并 求 平均 值 










图 11.35 action 规则 创建 流程 图 
action 规则 创建 的 伪 代 码 如 下 。 
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activity 规则 与 action 规则 的 创建 过 程 类 似 ， 此 处 就 不 详细 描述 了 。 


2. 行为 识别 

本 系统 对 行为 识别 采用 的 是 预 处 理 的 方式 。 即 对 于 任意 一 段 要 搜索 的 视频 ， 采 用 预 处 理 的 方 
式 ， 将 整个 视频 中 发 生 的 行为 进行 预先 识别 ， 在 真正 搜索 的 过 程 中 ， 因 为 行为 用 文本 表示 ， 所 以 
搜索 时 只 进行 文本 匹配 即 可 。 

在 行为 识别 的 过 程 中 ， 因 为 pose 很 难 代表 一 种 行为 ,所 以 行为 识别 的 过 程 主要 是 对 视频 中 的 
action 以 及 activity 的 识别 。 因 为 action 与 activity 规则 是 由 单 对 象 的 一 组 行为 图 片 组 成 的 ， 而 一 
张 行为 图 片 对 应 一 个 pose。 所 以 action 与 activity 的 识别 是 以 pose 识别 为 基础 的 。 在 此 ， 先 介绍 
一 下 pose 的 匹配 。 


(1) pose 匹配 

对 于 pose 匹配 ， 实 际 上 是 两 个 pose 的 行为 特征 ， 按 照相 似 度 匹配 公式 进行 匹配 。 但 是 由 于 
是 对 角度 值 进行 相似 度 计算 ， 角 度 的 变化 范围 最 大 是 “0，360) ， 差 值 太 小 ， 需 要 进行 一 定 的 处 
理 。 经 实验 验证 ， 对 其 的 更 改 是 减 去 0.9， 再 乘 以 10。 如 若 结果 值 为 负 值 ， 将 结果 值 变 为 0。 本 系 
统 实际 上 pose 的 相似 度 计 算 公式 如 下 。 经 实验 验证 ， 当 相似 度 大 于 93% 时 ， 认 为 其 相似 。 


oO 
Similarity (pose;, pose; )=Similarity(Q, 0 )= (一 和 一 一 一 一 
| "2 
i=l i=1 


(2) action 以 及 activity 行为 识别 
在 进行 行为 匹配 的 过 程 中 ， 实 际 上 可 以 理解 成 是 action 规则 与 要 搜索 的 视频 的 匹配 。action 
实际 上 是 由 按 顺 序 排列 的 pose 组 成 ， 视 频 也 是 由 一 组 pose 组 成 。 所 以 action 与 视频 的 匹配 实际 
上 是 一 组 pose 与 另 一 组 pose 的 匹配 。 它 的 匹配 按照 下 面 的 步骤 进行 : 


-09)10 “ 式 (11-22) 
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ED) 
2 


m3 


EL 


5 


对 于 action 规则 的 第 一 个 pose， 与 视频 工 的 第 一 帧 按照 pose 匹配 规则 匹配 。 若 成 功 ， 
则 进行 第 (2 ) 步 ， 若 不 成 功 ， 则 进行 第 (3 ) 步 。 

action 规则 的 当前 pose 与 视频 工 的 下 一 帧 匹配 ， 若 成 功 ， 重 复 第 (2 ) 步 。 直 到 action 
的 所 有 组 成 pose 匹配 完 。 若 不 成 功 ， 进 入 第 (3 ) 步 。 

在 action 规则 的 当前 帧 与 视频 的 前 一 帧 匹配 ， 与 视频 当前 帧 不 匹配 的 情况 下 ， 将 action 
规则 的 下 一 帧 与 视频 的 当前 帧 进行 匹配 ， 若 成 功 ， 则 进行 第 (2 ) 步 ， 若 不 成 功 ， 进 入 
第 (4) 步 。 

action 的 当前 pose 与 视频 工 的 下 一 帧 pose 进行 匹配 。 若 成 功 ， 进 入 第 (2 ) 步 。 和 否则， 
则 先 判断 视频 中 当前 帧 与 前 一 个 匹配 成 功 的 帧 之 间隔 的 帧 数 ， 如 若 隔 的 帧 数 小 于 4 帧 ， 
则 进行 第 (4 ) 步 。 和 否则 ， 重 新 匹配 。action 的 第 一 个 pose 与 跟 action 第 一 帧 匹配 的 视 
频 帧 的 下 一 帧 进行 重新 匹配 。 

如 果 action 的 pose 与 视频 的 最 后 一 帧 都 未 匹配 上 ， 则 匹配 失败 。 


action 匹配 的 流程 图 如 图 11.36 所 示 。 
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faetion 规 则 的 第 一 帧 与 视 
\、 频 对 象 的 第 一 帧 此 也 








action 第 一 帧 与 视频 起 始 
NE 配 的 下 一 位 置 开 始 贞 配 








action 的 当 


\_ 对 象 的 下 









action 的 当前 
帧 与 视频 的 
、、 上 一 帧 匹配 













视频 结尾 > 





:Yes 


图 11.36 action 匹配 过 程 
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activity 的 匹配 过 程 与 action 的 匹配 过 程 类 似 ， 此 处 就 不 详细 描述 了 。 

接 下 来 在 行为 识别 过 程 中 ， 首 先 需 要 声明 的 是 ， 所 有 的 动作 、 行 为 按照 质心 的 变化 预先 分 好 
类 ， 根 据 质心 的 变化 情况 ， 将 整 段 视频 划分 成 几 段 。 每 一 段 根据 质心 的 变化 ， 与 对 应 的 一 些 动作 
或 者 行为 特征 进行 一 一 匹配 ， 按 照 上 述 匹 配 的 规则 进行 ， 找 出 对 应 的 动作 或 者 行为 ， 用 文本 标记 
出 它 所 属 的 动作 。 如 果 找 不 出 ， 同 样 反馈 出 来 ， 供 用 户 创建 新 规则 。 其 中 在 与 对 应 的 动作 或 行为 
进行 匹配 的 过 程 中 ， 如 果 与 动作 或 行为 对 应 的 两 帧 之 间 的 间隔 大 于 4 帧 ， 则 不 认为 是 匹配 成 功 ， 
需 重新 匹配 。 

在 action 或 者 activity 与 视频 匹配 的 过 程 中 , 由 于 一 段 视频 中 可 能 包含 多 个 action 或 者 activity， 
因此 在 匹配 时 标记 出 视频 中 与 action 的 第 一 个 pose 匹配 成 功 的 帧 。 若 匹配 成 功 , 则 再 记录 下 action 
或 者 activity 的 最 后 一 个 pose 匹配 的 帧 的 帧 号 ， 以 及 匹配 结果 所 属 的 类 别 ， 以 便 用 于 搜索 ， 若 不 
成 功 则 忽略 已 经 记录 下 的 第 一 个 pose 匹配 成 功 的 帧 号 。 








系统 运行 时 截图 


本 系统 采用 JSP 技术 实现 系统 的 前 台 交 互 功能 ， 用 户 可 以 按照 需求 输入 时 间 、 行 为 、 人 物 进 
行 相关 视频 的 检索 ， 图 11.37 为 系统 输入 查询 条 件 的 主 界面 。 














4 
指定 时 间 
| [于 [earen) 
指定 人 物 
共有 0 条 记录 











图 11.37 视频 查询 主 界面 
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在 本 系统 中 ， 用 户 可 以 通过 下 拉 菜 单 进行 行为 的 选择 ， 通 过 “上 传 ” 按 钮 实现 指定 人 物 的 查 
询 ， 为 了 提高 查询 的 准确 率 ， 将 会 输出 一 组 相似 性 最 高 的 视频 片段 ， 查 询 结果 如 图 11.38 所 示 。 
用 户 可 以 通过 双击 感 兴趣 的 视频 片段 对 其 进行 播放 观看 ， 如 图 11.39 所 示 ， 播 放 控件 允许 用 户 对 
视频 进行 “ 快 进 ^“ 快 退 ^“ 暂 停 ”等 操作 。 


Yideo_segments/01_jump.avi_0BJO_run_0.avi 





Video_segments/01_jump.avi_0BJO_run_17.avi 





Video_segments/02_jump.avi_0BJO_run_0.avi 





Yideo_segments/02_jump.avi_0BJO_run 18.avi 





video_segments/02_jump. avi_0BJO_run_36. avi 
共有 5 条 记录 














11.38 查询 结果 显示 








11.39 ”播放 视频 片段 
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| 1 .GO 本章 小 结 


本 章 对 海量 监控 视频 检索 系统 的 设计 与 实现 过 程 进行 了 详细 的 介绍 。 首 先 介绍 了 该 系统 的 应 
用 背景 ， 通 过 输入 时 间 、 人 物 、 地 点 等 条 件 从 海量 视频 中 检索 出 所 需 内 容 。 然 后 分 别 从 功能 需求 
和 非 功能 性 需求 两 方面 对 系统 进行 了 需求 分 析 ， 并 给 出 了 系统 中 每 个 核心 模块 的 业务 处 理 流程 以 
及 系统 的 总 体 设计 。 第 三 节 着 重 介绍 了 本 系统 所 涉及 的 相关 技术 ， 使 读者 能 够 更 好 地 理解 本 系统 
的 设计 。 第 四 节 详 细 介绍 了 系统 每 个 模块 的 设计 与 实现 ， 通 过 HBase 进行 信息 的 存储 ， 通 过 
MapReduce 进行 视频 的 预 处 理 以 及 基于 规则 的 行为 识别 与 规则 创建 。 

本 章 通 过 对 海量 监控 视频 检索 系统 从 设计 到 实现 的 详细 描述 ， 能 够 让 读者 对 于 大 数据 在 视频 
监控 方面 的 应 用 有 更 好 的 理解 。 
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第 12 章 
基于 HDFS 的 云 文件 系统 


本 章 全 面 介 绍 了 一 个 基于 HDFS (Hadoop Distributed File System) 的 云 文件 系统 ,为 用 户 进 
行 数据 存储 提供 支持 。 传 统 的 网 盘 技 术 具 有 传输 速度 慢 、 容 灾 备 份 及 恢复 能 力 低 、 安 全 性 差 、 营 
运 成 本 高 等 瓶颈 ,本 系统 是 对 开源 云 计算 架构 Hadoop 的 分 布 式 文件 系统 HDFS 进行 的 定制 与 改造 ， 
实现 了 面向 高 速 局 域 网 网 络 服务 的 云 计 算 分 布 式 文件 系统 ， 并 提供 了 网 盘 应 用 的 主要 功能 。 





应 用 背景 介绍 


我 们 生活 在 数据 的 时 代 ， 很 难 估计 全 球 以 电子 方式 存储 的 数据 总 量 有 多 少 。 数 据 总 量 的 增加 
使 得 单一 的 本 地 物理 小 容量 存储 已 经 无 法 满足 信息 化 社会 的 快速 发 展 ， 远 程 云端 存储 正 显现 出 超 
常 的 优越 性 和 迫切 的 需要 性 。 越 来 越 多 的 网 络 公司 和 企业 已 经 推出 了 网 盘 应 用 ， 向 用 户 提供 文件 
的 存储 、 访 问 、 备 份 、 共 享 等 文件 管理 功能 ， 网 盘 类 似 于 一 个 放 在 网 络 上 的 硬盘 或 U 盘 ， 不 管 在 
家 中 、 单 位 或 其 他 任何 地 方 ， 只 要 连接 到 因特网 ， 就 可 以 管理 、 编 辑 网 盘 里 的 文件 。 但 是 随 着 存 
储 需 求 和 网 络 的 进步 ， 传 统 网 盘 技 术 出 现 了 种 种 问题 ， 严 重 制约 了 网 络 存储 的 发 展 。 

最 新 应 用 的 云 计算 储存 技术 ， 为 网 盘 行 业 带 来 了 新 的 革命 ， 相 对 传统 网 盘 技 术 它 的 众多 优点 
逐渐 显现 。 云 存储 是 构建 在 高 速 分 布 式 存储 网 络 上 的 数据 中 心 ， 它 可 以 将 网 络 中 大 量 不 同类 型 的 
存储 设备 通过 应 用 软件 集合 起 来 协同 工作 ， 提 供 面 向 网 络 服务 的 云 计算 分 布 式 文件 系统 。 它 是 一 
个 高 度 容错 性 的 系统 ， 适 合 部 署 在 康 价 机 器 上 ， 可 以 提供 高 吞吐 量 的 数据 访问 ， 非 常 适合 大 规模 
数据 集 上 的 使 用 ， 它 可 以 从 整体 上 提高 数据 带宽 。 系 统 具有 分 布 式 存储 与 高 可 用 性 ， 能 够 为 用 户 
提供 基于 云 文 件 系统 上 的 文件 的 创建 、 存 储 、 删 除 、 查 询 、 副 本 设置 等 功能 ， 形 成 一 个 安全 的 数 
据 存储 和 访问 的 系统 ， 适 用 于 各 大 中 小 型 企业 与 个 人 用 户 的 数据 资料 存储 、 备 份 、 归 档 等 一 系列 

云 存 储 技术 的 最 大 优势 是 它 可 以 将 单一 的 存储 产品 转换 为 数据 存储 与 服务 ， 可 以 在 未 来 代替 
传统 网 络 存储 并 为 用 户 提供 更 好 的 服务 ， 而 且 云 存储 已 经 成 为 未 来 网 络 存储 技术 发 展 的 一 个 主要 
趋势 。 在 这 种 技术 下 ， 网 络 存储 才能 适应 信息 社会 快速 发 展 的 今天 。 

本 章 介绍 的 云 文件 系统 是 对 开源 云 计算 文件 系统 Hadoop HDFS 进行 定制 与 改造 ,提供 面向 网 
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络 服务 的 云 计算 分 布 式 文件 系统 。 该 系统 支持 采用 Java 编程 语言 和 云 文件 系统 提供 的 接口 实现 文 
件 的 增加 、 删 除 、 恢 复 、 上 传 下 载 与 查询 等 功能 。 

系统 后 台 以 多 机 器 组 成 的 Hadoop 集群 为 基础 , 前 台 只 需要 有 Java 虚拟 机 和 Tomcat 服务 容器 
即 可 。 后 台 集群 为 文件 存储 和 集群 操作 提供 了 较为 稳定 的 存储 环境 ,基于 Web 的 前 台 界 面 为 用 户 
提供 了 方便 的 操作 平台 ， 管 理 员 可 以 管理 普通 用 户 并 对 集群 进行 配置 ， 普 通用 户 可 以 使 用 基于 云 
端的 网 盘 服 务 。 该 系统 灵活 性 较 高 ， 同 时 具有 良好 的 系统 性 能 和 用 户 体验 。 

本 系统 具有 一 定 的 容错 性 ， 适 合 部 署 在 普通 PC 机 或 服务 器 集群 上 ， 提 供 高 吞吐 量 的 数据 访 
问 ， 能 够 支持 较 大 规模 的 数据 存储 与 访问 。 


需求 分 析 与 总 体 设 计 


12.2.1 需求 分 析 


根据 12.1 节 的 描述 , 首先 对 系统 进行 需求 分 析 , 图 12.1 首先 给 出 了 该 系统 的 核心 用 例 图 ， 明 
确 了 系统 的 主要 功能 需求 。 





损 作 文件 
> f 
普通 用 户 管理 只 





图 12.1 云 文件 系统 核心 用 例 图 


从 图 12.1 中 可 以 看 出 ， 云 文件 系统 有 三 个 核心 用 例 ， 分 别 是 : 普通 用 户 和 管理 员 文 件 操作 ， 
普通 用 户 和 管理 员 进 行 用 户 信息 管理 和 管理 员 进行 系统 管理 。 
在 核心 用 例 图 的 基础 上 ， 对 核心 用 例 进 行 细 化 ， 得 到 本 系统 的 详细 用 例 ， 如 图 12.2 所 示 。 
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图 12.2 基于 HDFS 的 云 文件 系统 详细 用 例 图 


从 图 12.2 可 以 看 出 , 普通 用 户 通过 登录 进入 系统 后 可 以 管理 保存 在 云 文件 系统 中 的 自己 的 文 
件 ， 还 可 以 通过 系统 的 回收 站 对 自己 删除 的 文件 进行 恢复 、 对 文件 进行 彻底 删除 以 及 对 回收 站 的 
清空 操作 ， 系 统管 理 员 通过 登录 进入 系统 后 可 以 对 云 文 件 系 统 后 台 进 行 全 面 的 管理 操作 ， 主 要 分 
为 : 集群 管理 ， 管 理 员 添 加 或 删除 用 来 存储 用 户 文件 的 后 台 存储 节点 ， 文 件 管理 ， 管 理 员 查 看 系 
统 用 户 的 文件 ， 用 户 管理 ， 管 理 员 添 加 、 删 除 、 修 改 系 统 用 户 信息 。 


1. 管理 系统 


管理 系统 对 云 文件 系统 中 的 服务 器 集群 进行 监管 和 控制 ， 支 持 集群 动态 扩展 与 负载 均衡 等 。 
系统 管理 功能 细 分 为 系统 监控 和 节点 管理 两 个 子 功能 。 
@ 监控 系统 。 采 用 列表 、 柱 状 图 和 饼 状 图 三 种 方式 呈现 集群 中 每 个 节点 的 CPU、 内 存 和 存 
储 容量 等 信息 ; 采用 列表 方式 实时 呈现 集群 中 的 活动 节点 、 退 役 中 节点 和 已 退役 节点 。 
日 管理 节点 。 输 入 IP 段 ， 查 找 集群 中 可 添加 的 机 器 列表 ， 采 用 可 视 化 的 方式 向 集群 中 添加 
新 的 节点 或 删除 现 有 节点 。 


2. 操作 文件 
对 存储 在 云 文件 系统 中 的 文件 进行 上 传 、 下 载 、 删 除 、 搜 索 和 创建 文件 夹 等 操作 。 


e 上 传 文件 。 通过 Web 页 面 选择 本 地 文件 ， 将 本 地 文件 上 传 到 云 文件 系统 中 ， 并 在 云 文件 
系统 中 保存 该 文件 。 

e 下 载 文件 。 通 过 Web 页 面 从 云 文件 系统 中 选择 所 需 文件 下 载 到 本 地 。 

e 搜索 文件 。 通过 文件 名 模糊 查询 云 文件 系统 中 的 所 有 文件 ， 并 对 返回 的 文件 进行 下 载 、 重 
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命名 和 删除 操作 。 


日 删除 文件 .文件 删除 后 ， 首 先 保存 在 回收 站 中 ， 保 存 期 限 为 10 天， 超过 10 天 后 系统 自动 
彻底 删除 回收 站 中 的 所 有 文件 ; 对 回收 站 中 的 文件 执行 删除 操作 后 ， 文 件 将 被 彻底 删除 。 
@ 创建 文件 夹 。 可 以 在 云 文件 系统 中 创建 和 删除 文件 夹 ， 文 件 夹 可 以 多 层 谋 套 。 


3. 管理 用 户 信息 

对 使 用 云 文件 系统 的 用 户 进行 管理 ， 用 户 分 为 管理 员 和 普通 用 户 两 类 。 普 通用 户 只 能 操作 自 
己 空间 内 的 所 有 文件 与 文件 夹 ;管理 员 除 了 具有 普通 用 户 的 所 有 权限 外 ， 还 具有 系统 管理 和 用 户 
管理 两 种 功能 。 用 户 管理 细 分 为 添加 用 户 、 修 改 用 户 、 删 除 用 户 、 查 询 用 户 和 设 定 用 户 空间 5 个 
子 功能 。 





添加 用 户 。 填 写 用 户 的 基本 信息 和 认证 信息 ， 明 确 用 户 种 类 ， 创 建 该 用 户 。 

修改 用 户 。 对 用 户 基 本 信息 和 认证 信息 进行 修改 。 

删除 用 户 。 删 除 用 户 ， 包 括 该 用 户 的 认证 信息 和 基本 信息 ， 该 操作 不 可 恢复 。 

查询 用 户 。 采 用 列表 方式 显示 所 有 用 户 的 认证 信息 和 基本 信息 。 

设 定 用 户 空间 。 在 创建 用 户 的 过 程 中 设 定 用 户 能 够 拥有 的 存储 空间 大 小 ， 控 制 用 户 的 文件 
存储 量 。 


下 面 列 出 了 各 项 功能 的 详细 用 例 表 ， 如 表 12.1~12.15 所 示 。 
表 12.1 管理 员 登 录 / 退 出 详细 用 例 表 


用 例 名 称 ”| 登录 /退出 

用 例 描述 管理 员 通 过 登录 系统 进入 和 退出 云 文 件 系统 
参与 者 管理 员 和 服务 器 

前 置 条 件 管理 员 打 开 登 录 界面 

后 置 条 件 管理 员 以 登录 页 面 显 示 登 录 名 

基本 操作 1. 管理 员 输 入 账号 密码 

2. 提交 

3. ”中间 业务 接受 输入 信息 

4. 中间 业务 查询 数据 库 核 对 信息 

5. ”若是 信息 正确 ， 页 面 跳 转 到 管理 员 界 面 
6.” 若 信息 错误 ， 提 示 错 误 信 息 并 重新 跳 转 到 登录 界面 
7. ”登录 后 可 以 单 击 “ 退 出 ”按钮 退出 系统 


业务 规则 。 | 管理 员 只 能 登录 一 次 不 能 重复 登录 

















从 表 12.1 可 以 看 出 ， 管 理 员 登 录 / 退 出 的 主要 工作 有 7 步 ， 管 理 员 填写 账号 和 密码 然后 提交 ， 
中 间 业 务 将 信息 与 数据 库 中 的 信息 进行 核对 ， 如 果 信息 正确 则 进入 系统 ， 如 果 信息 有 误 系统 提示 
错误 信息 并 跳 转 到 登录 界面 重新 输入 。 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 管理 员 
只 能 登录 一 次 , 不 能 重复 登录 ， 只 有 正确 输入 信息 后 才能 进入 系统 。 管 理 员 通过 此 功能 进入 系统 ， 
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实战 大 数据 
对 系统 后 台 服务 器 和 文件 系统 进行 管理 和 监视 。 
表 12.2 修改 个 人 信息 详细 用 例 表 

















用 例 名 称 修改 个 人 信息 
用 例 描述 管理 员 在 管理 员 界 面 修改 自己 的 信息 
参与 者 管理 员 和 服务 器 
前 置 条 件 管理 员 已 经 登录 
后 置 条 件 数据 库 中 有 修改 后 的 信息 
基本 操作 1. ”选择 修改 信息 
2. ”填写 新 信息 
3. 提交 
4. ”中 间 业 务 接收 输入 信息 
5. ”中 间 业 务 修 改 数 据 库 
6. ”返回 修改 成 功 
业务 规则 管理 员 可 以 修改 其 他 所 有 用 户 的 信息 











从 表 12.2 可 以 看 出 ， 修 改 个 人 信息 的 主要 工作 有 6 步 ， 管 理 员 选 择 用 户 后 单 击 修改 信息 ， 然 
后 开始 相应 的 流程 。 该 用 例 的 其 主要 业务 规则 是 : 管理 员 可 以 修改 其 他 所 有 用 户 的 信息 。 


表 12.3 ”集群 管理 详细 用 例 表 





用 例 名 称 集群 管理 
用 例 描述 管理 员 在 管理 员 界 面 进行 云 文件 系统 后 台 的 集群 管理 
参与 者 管理 员 和 服务 器 
前 置 条 件 管理 员 已 经 登录 
后 置 条 件 后 台 有 可 操作 的 集群 
基本 操作 1. 管理 员 选 择 操作 集群 的 动作 
2. ”输入 配置 信息 
3. ”中 间 业 务 接受 选择 信息 
4. ”中 间 业 务 按 管理 员 操作 处 理 集群 
5. ”返回 新 的 集群 状态 信息 
业务 规则 管理 的 集群 必须 是 连接 在 后 台 节点 上 的 机 器 











从 表 12.3 可 以 看 出 ， 集 群 管理 的 主要 工作 有 5 步 ， 管 理 员 进入 集群 管理 页 面 选 择 相应 操作 ， 
然后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 管理 员 管理 的 集群 必须 是 连接 在 后 台 节点 上 的 
机 器 。 
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表 12.4 文件 管理 详细 用 例 表 

















用 例 名 称 文件 管理 
用 例 描述 管理 员 在 管理 员 界 面 管理 系统 所 有 用 户 的 所 有 文件 
参与 者 管理 员 和 服务 器 
前 置 条 件 管理 员 已 经 登录 
后 置 条 件 文件 经 过 管理 
基本 操作 1. 管理 员 选 择 文件 操作 类 型 
2. ”中 间 业 务 接受 操作 类 型 
3. ”中 间 业 务 遍历 文件 系统 
4. ”返回 文件 操作 后 的 结果 
业务 规则 管理 员 只 能 查看 并 搜索 系统 中 用 户 的 文件 ， 不 能 对 文件 进行 增 、 删 、 改 等 内 容 变更 操作 











从 表 12.4 可 以 看 出 ， 集 群 管理 的 主要 工作 有 4 步 ， 管 理 员 进 入 文件 系统 页 面 选 择 相应 操作 ， 
然后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 管理 员 只 能 查看 并 搜索 系统 中 用 户 的 文件 ， 不 
能 对 文件 进行 增 、 删 、 改 等 内 容 变 更 操作 。 


表 12.5 用 户 管理 详细 用 例 表 











用 例 名 称 用 户 管理 
用 例 描述 管理 员 在 管理 员 界 面 管理 系统 用 户 
参与 者 管理 员 和 服务 器 
前 置 条 件 管理 员 已 经 登录 
后 置 条 件 系统 用 户 经 过 更 新 
基本 操作 1. 管理 员 选 择 管理 用 户 的 类 型 
2. “填写 操作 信息 
3. 中间 业务 接受 操作 类 型 
4. ”中间 业务 更 新 数据 库 
5. 返回 更 新 后 的 所 有 用 户 
业务 规则 管理 员 可 以 对 系统 中 的 用 户 进行 增 、 删 、 改 、 查 


从 表 12.5 可 以 看 出 ， 用 户 管理 的 主要 工作 有 5 步 ， 管 理 员 进入 用 户 管理 页 面 选 择 相应 操作 ， 
然后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 管理 员 可 以 对 系统 中 的 用 户 进行 增 、 删 、 改 、 
查 。 


表 12.6 用 户 登录 /退出 详细 用 例 表 


用 例 名 称 登录 /退出 





用 例 描述 用 户 通 过 登录 系统 进入 和 退出 云 文件 系统 


参与 者 用 户 和 服务 器 
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( 续 表 ) 
前 置 条 件 用 户 打开 登录 界面 
后 置 条 件 用 户 进入 用 户 界面 并 显示 用 户 登 录 名 
基本 操作 用 户 输入 账号 密码 
中 间 业 务 接受 输入 信息 


1 
2 
3. ”中 间 业 务 查询 数据 库 核 对 用 户 信息 ， 如 果 信 息 错误 跳 转 到 登录 界面 
4. ”登录 后 可 以 单 击 “ 退 出 ”按钮 退出 系统 

业务 规则 用 户 只 能 登录 一 次 ， 不 能 重复 登录 














从 表 12.6 可 以 看 出 ， 用 户 登 录 / 退 出 的 主要 工作 有 4 步 ， 用 户 进入 登录 页 面 填写 用 户 名 和 密 
码 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 用 户 只 能 登录 一 次 ， 不 能 重复 登录 。 


表 12.7 修改 个 人 信息 详细 用 例 表 


用 例 名 称 修改 个 人 信息 
用 例 描述 用 户 在 用 户 界面 修改 自己 的 信息 
参与 者 用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 
后 置 条 件 数据 库 中 有 修改 后 的 用 户 信息 
基本 操作 1. ”选择 修改 个 人 信息 
2. ”填写 新 信息 
3. ”中 间 业 务 检查 信息 的 合法 性 
4. 中间 业务 接收 输入 信息 
5. ”中 间 业 务 修改 数据 库 
6. ”返回 修改 成 功 
业务 规则 用 户 只 能 修改 自己 的 信息 ， 不 能 修改 管理 员 给 自己 分 配 的 空间 











从 表 12.7 可 以 看 出 ， 用 户 修改 个 人 信息 的 主要 工作 有 6 步 ， 用 户 进入 用 户 界 面 选择 修改 个 人 
信息 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 用 户 只 能 修改 自己 的 信息 ， 不 能 修改 管 














理 员 给 自己 分 配 的 空间 。 
表 12.8 搜索 文件 详细 用 例 表 
用 例 名 称 | 搜索 文件 
用 户 在 用 户 界面 搜索 自己 的 文件 
用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 
后 置 条 件 页 面 展示 按 关 键 字 找到 的 文件 
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( 续 表 ) 





基本 操作 


1. ”用户 在 搜索 框 填写 关键 字 

2. 提交 

3. ”中 间 业 务 接收 数据 

4. ”中 间 业 务 遍历 该 用 户 的 文件 ， 找 到 含 关键 字 的 文件 
5. ”返回 根据 关键 字 找到 的 文件 








业务 规则 


| 用 户 只 能 搜索 自己 的 文件 








从 表 12.8 可 以 看 出 ， 用 户 搜索 文件 的 主要 工作 有 5 步 ， 用 户 进入 用 户 界面 在 搜索 框 中 填写 关 
键 字 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 用 户 只 能 搜索 自己 的 文件 。 


表 12.9 上 传 文件 详细 用 例 表 











用 例 名 称 上 传 文件 
用 例 描述 用 户 在 用 户 界面 进入 特定 目录 上 传 自己 的 文件 
参与 者 用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 进入 用 户 界 面 
后 置 条 件 该 目录 下 有 用 户 上 传 的 文件 
基本 操作 1. 用 户 单 击 上 传 按钮 
2. 页 面 弹出 文件 选择 杠 
3. ”用户 选择 文件 并 确定 
4. ”中 间 业 务 上 传 该 文件 
5. ”车 上 传 成 功 更 新 文件 列表 
6. 车 上 传 失 败 显 示 提示 信息 并 返回 文件 列表 
业务 规则 用 户 上 传 的 文件 文件 名 不 能 含有 特殊 字符 ， 目 录 下 不 能 有 同名 文件 


从 表 12.9 可 以 看 出 ,用 户 上 传 文件 的 主要 工作 有 6 步 用 户 进入 用 户 界面 单 击 上 传 文件 按钮 ， 
然后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 用 户 上 传 的 文件 文件 名 不 能 含有 特殊 字符 ， 目 
录 下 不 能 有 同名 文件 。 


表 12.10 ”新建 目 录 详 细 用 例 表 























用 例 名 称 新 建 目录 
用 例 描述 用 户 在 用 户 界面 进入 特定 目录 新 建文 件 来 
参与 者 用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 进入 用 户 界面 
后 置 条 件 该 目录 下 有 用 户 刚才 新 建 的 文件 夹 
基本 操作 1. ”用 户 单 击 新 建文 件 夹 按钮 
2. ”页 面 弹出 文件 名 输入 框 
3. ”用 户 输入 文件 名 并 提交 
4. ”中 间 业 务 创建 该 文件 夹 
5._ 车 创建 成 功 返回 含有 新 建文 件 夹 的 文件 列表 ， 否 则 显示 错误 信息 并 返回 文件 列表 
业务 规则 输入 的 文件 名 不 能 含有 特殊 字符 ， 不 能 同 所 在 目录 下 的 文件 重 名 








从 表 12.10 可 以 看 出 ， 用 户 新 建文 件 夹 的 主要 工作 有 5 步 ， 用 户 进入 用 户 界面 单 击 新 建文 件 
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夹 按钮 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 输入 的 文件 名 不 能 含有 特殊 字符 ， 不 
能 同 所 在 目录 下 的 文件 重 名 。 





表 12.11 回收 站 管理 详细 用 例 表 

用 例 名 称 回收 站 管理 

用 例 描述 用 户 进入 回收 站 页 面 管理 自己 删 掉 的 文件 

参与 者 用 户 和 服务 器 

前 置 条 件 用 户 已 经 登录 进入 回收 站 页 面 

后 置 条 件 回收 站 内 容 已 经 更 新 

基本 操作 1. 用 户 选择 回收 站 中 文件 操作 类 型 

2. 中间 业务 判断 文件 操作 类 型 

3. ”中间 业务 操作 回收 站 中 的 文件 ， 若 是 彻底 删除 将 文件 从 回收 站 删除 ， 若 是 恢复 文件 将 文 
件 从 回收 站 恢复 ， 若 是 清空 回收 站 则 删除 回收 站 中 所 有 的 文件 
4. ”返回 用 户 管理 后 的 回收 站 文件 列表 


业务 规则 从 回收 站 删除 或 清空 文件 后 文件 不 可 恢复 


从 表 12.11 可 以 看 出 ， 用 户 回收 站 管理 的 主要 工作 有 4 步 ， 用 户 进入 回收 站 界面 选择 操作 ， 
然后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 从 回收 站 删除 或 清空 文件 后 文件 不 可 恢复 。 


表 12.12 文件 重 命名 详细 用 例 表 






























































用 例 名 称 文件 重 命名 
用 例 描述 用 户 修改 文件 名 称 
参与 者 用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 进入 用 户 页 面 
后 置 条件 文件 名 被 修改 
基本 操作 1. 用 户 选择 文件 后 的 重 命名 按钮 
2. ”系统 跳出 填写 文件 名 的 输入 框 
3. ”用 户 输入 文件 名 
4. ”中 间 业 务 接受 输入 信息 并 修改 文件 名 
5. 车 修 改 成 功 返回 修改 后 的 文件 列表 ， 否 则 显示 错误 信息 然后 返回 修改 前 的 文件 列表 
业务 规则 修改 的 文件 名 不 能 含有 特殊 字符 ， 不 能 和 同 目录 下 的 文件 名 相同 
从 表 12.12 可 以 看 出 ， 用 户 重 命名 文件 的 主要 工作 有 5 步 ， 用 户 进 入 用 户 界面 单 击 文件 后 面 
的 重 命名 按钮 ， 然 后 开始 相应 的 流程 。 该 用 例 的 其 主要 业务 规则 是 : 修改 的 文件 名 不 能 含有 特殊 





字符 ， 不 能 和 同 目录 下 的 文件 名 相同 。 
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表 12.13 文件 下 载 详细 用 例 表 




















用 例 名称 文件 下 载 

用 例 描述 用 户 下 载 自己 的 文件 

参与 者 用 户 和 服务 器 

前 置 条 件 用 户 已 经 登录 进入 用 户 页 面 

后 置 条 件 文件 被 下 载 到 用 户 电脑 

基本 操作 1. 用 户 选择 文件 后 的 下 载 按钮 
2. ”页 面 弹出 保存 路 径 选择 框 
3. 用 户 选择 路 径 
4. ”中 间 业 务 执行 文件 下 载 
5. 下 载 完 成 后 返回 下 载 前 的 页 面 

业务 规则 只 能 下 载 文件 而 不 能 下 载 文件 夹 





从 表 12.13 可 以 看 出 ， 用 户 文件 下 载 的 主要 工作 有 5 步 ， 用 户 进 入 用 户 界面 单 击 文件 后 面 的 
下 载 按钮 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 只 能 下 载 文件 而 不 能 下 载 文件 夹 。 


表 12.14 ”文件 删除 详细 用 例 表 














用 例 名 称 文件 删除 
用 例 描述 用 户 删除 目录 中 的 文件 
参与 者 用 户 和 服务 器 
前 置 条 件 用 户 已 经 登录 进入 用 户 页 面 
后 置 条 件 文件 删除 
基本 操作 1. ”用户 选择 文件 后 的 删除 按钮 
2. ”页 面 弹出 是 否 删除 选择 框 
3. ”用 户 选择 确定 /取消 
4. ”中 间 业 务 层 接受 信息 ， 如 果 是 “确定 ”执行 删除 文件 操作 将 文件 删除 到 回收 站 中 并 
返回 ， 如 果 是 “取消 ” 则 取消 操作 并 返回 
业务 规则 文件 被 删除 到 回收 站 ， 可 以 从 回收 站 恢复 





从 表 12.14 可 以 看 出 ， 用 户 文件 删除 的 主要 工作 有 4 步 ， 用 户 进入 用 户 界 面 单 击 文件 后 面 的 
删除 按钮 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 文件 被 删除 到 回收 站 ， 可 以 从 回收 








表 12.15 文件 分 类 检索 详细 用 例 表 














用 例 名 称 | 文件 分 类 检索 
用 例 描述 。 | 用 户 按 类 别 查 找 自己 的 文件 
参与 者 | 用 户 和 服务 器 
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( 续 表 ) 
前 置 条 件 。 ”| 用 户 已 经 营 录 进入 用 户 页 面 
后 置 条 件 。 | 显示 用 户 所 选择 的 类 别 的 所 有 文件 | 
基本 操作 1。 用 户 选 择 用 户 页 面 左边 的 类 别 选项 


2. ”中 间 业 务 接受 类 别 信息 
3. ”中 间 业 务 按 类 别 遍历 用 户 文件 ， 找 出 该 类 别 的 文件 并 以 列表 的 形式 显示 给 用 户 





业务 规则 按 类 别 检索 只 是 对 文件 的 检索 





从 表 12.15 可 以 看 出 ， 用 户 文件 分 类 检索 的 主要 工作 有 3 步 ， 用 户 进 入 用 户 界面 单 击 页 面 左 
边 的 类 别 选 项 ， 然 后 开始 相应 的 流程 。 该 用 例 的 主要 业务 规则 是 : 按 类 别 检索 只 是 对 文件 的 检索 。 


系统 数据 的 来 源 方式 主要 有 两 种 ， 即 管理 员 对 系统 的 管理 和 用 户 的 文件 操作 ， 具 体系 统 上 下 
文 数据 流 图 如 图 12.3 所 示 。 


集群 信息 


| 集群 管理 | 
扩展 集群 = 疆 时 


深 作 性 二 
成 功 /失败 
人 用 户 管理 网 盘 系 统 请 名 
| 一 一 二 
用 户 信息 操作 结果 
请 东 而 村 广 人 


查看 云 文件 系统 目录 结构 







目录 和 文件 信息 


图 12.3 基于 HDFS 的 云 文件 系统 的 上 下 文 数据 流 图 


从 图 12.3 可 以 看 出 ， 云 文件 系统 会 与 系统 管理 员 、 系 统 用 户 等 外 部 代理 产生 一 定 的 数据 读 写 
工作 ， 管 理 员 通 过 管理 系统 后 台 与 系统 进行 交互 ， 系 统 用 户 通过 管理 自己 的 文件 与 系统 进行 交互 
并 明确 给 出 了 系统 的 边界 。 


12.2.2 总 体 设 计 


1. 系统 功能 设计 
通过 对 系统 的 需求 分 析 ， 可 以 看 出 系统 主要 分 为 三 大 功能 模块 ， 具 体 如 图 12.4 所 示 。 
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基本 操作 后 台 管理 用 户 服务 
人 退 文 | | 闻 | | 用 文 信 
录 出 件 | | 点 | | 户 件 息 
系 系 管 | 踢 管 | 中 管 管 管 
统 统 理 理 理 理 理 
文 | 上 地 添 文 蜗 
件 | | 点 加 件 训 
查 | 目 添 用 上 发 
看 | | | 各 户 伟 食 
息 

文 | || 节 删 文 

件 | | 点 除 件 

搜 | 站 配 用 下 

索 | || 置 户 载 

在 将 

电 | | 看 件 

而 用 重 

除 户 命 

信 名 

文 

件 

吕 要 

用 索 

区 
信 

件 

出 

除 

回 

收 

站 

管 

理 











图 12.4 基于 HDFS 的 云 文件 系统 功能 分 解 图 


从 图 12.4 可 以 看 出 ， 云 文件 系统 分 为 基本 操作 、 后 台 管 理 、 用 户 服务 三 个 模块 ， 具体 功能 如 
下 ; 
(1) 基本 操作 模块 
@ 登录 系统 : 基于 用 户 名 和 密码 的 方式 ， 提 供给 管理 员 和 用 户 进入 本 系统 的 方法 。 验 证 成 功 
后 ， 管 理 员 进入 管理 界面 ， 用 户 进入 用 户 界面 。 
@ 退出 登录 : 提供 给 已 进入 本 系统 的 管理 员 和 用 户 退 出 自己 账户 的 功能 。 
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(2) 后 台 管 理 模块 


。 文件 管理 文件 管理 是 提供 给 系统 管理 员 的 功能 ， 管 理 员 可 以 查看 和 搜索 系统 中 所 有 用 户 
的 文件 。 

@ 节点 管理 节点 管理 是 提供 给 系统 管理 员 的 功能 管理 员 可 以 向 系统 添加 节点 、 删 除 节点 、 
对 系统 中 的 节点 进行 配置 。 

@ 用 户 管理 : 用 户 管理 是 提供 给 系统 管理 员 的 功能 ， 管 理 员 可 以 添加 用 户 、 删 除 用 户 、 查 看 
用 户 信息 、 修 改 用 户 信息 、 给 用 户 分 配 空间 等 。 


(3) 用 户 服务 模块 


® 文件 管理 : 文件 管理 是 提供 给 系统 用 户 的 功能 ， 用 户 可 以 向 本 系统 自己 的 空间 中 上 传 文 
件 、 创建 文件 夹 、 下 载 文 件 、 重 命名 文件 、 搜 索 文件 、 删 除 文 件 以 及 在 回收 站 里 恢复 文件 ， 
还 可 以 清空 回收 站 。 

@ 修改 个 人 信息 : 修改 个 人 信息 是 提供 给 系统 用 户 的 功能 ， 用 户 可 以 修改 自己 的 信息 。 


针对 系统 的 功能 需求 ， 设 计 了 系统 的 架构 为 B/S 架构 。B/S 架构 具有 分 布 性 特点 ， 可 以 随时 
随地 进行 查询 、 浏 览 等 业务 处 理 ， 业 务 扩展 简单 方便 ， 通 过 增加 页 面 即 可 增加 服务 器 功能 ， 维 护 
简单 方便 ， 只 需要 改变 网 面 ， 即 可 实现 所 有 用 户 的 同步 更 新 。 因 此 选择 B/S 作为 本 系统 的 基本 架 
构 ， 系 统 集群 架构 图 如 图 12.5 所 示 。 


"ee 


1 
L 








图 12.5 系统 与 集群 架构 图 
2. 数据 备份 方案 设计 


(1) Hadoop 的 元 数据 备份 方案 
该 方案 利用 Hadoop 自身 的 Failover 措施 (通过 配置 dfs.name.dir)，NameNode 可 以 将 元 数据 
信息 保存 到 多 个 目录 。 通 常 的 做 法 是 ， 选 择 一 个 本 地 目录 、 一 个 远程 目录 (通过 NFS 进行 共享 )， 
当 NameNode 发 生 故 障 时 ， 可 以 启动 备用 机 器 的 NameNode， 加 载 远 程 目录 中 的 元 数据 信息 ， 提 
供 服务 。 
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(2) Hadoop 的 Secondary NameNode 方案 
该 方案 启动 一 个 Secondary NameNode 节点 ， 该 节点 定期 从 NameNode 节点 上 下 载 元 数据 信 
息 (元 数据 镜像 fsimage 和 元 数据 库 操作 日 志 edits)， 然 后 将 fsimage 和 edits 进行 合并 ， 生 成 新 的 
人 image 该 fsimage 就 是 Secondary NameNode 下 载 时 刻 的 元 数据 的 Checkpoint)， 在 本 地 保存 ， 
并 将 其 推送 到 NameNode， 同 时 重 置 NameNode 上 的 edits。 





(3) Hadoop 的 Checkpoint Node 方案 
Checkpoint Node 方案 与 Secondary NameNode 的 原理 基本 相同 ， 只 是 实现 方式 不 同 。 该 方案 
利用 Hadoop 的 Checkpoint 机 制 进行 备份 ， 配 置 一 个 Checkpoint Node。 该 节点 会 定期 从 Primary 
NameNode 中 下 载 元 数据 信息 (fsimagetedits)， 将 edits 与 fsimage 进行 合并 ， 在 本 地 形成 最 新 的 
Checkpoint， 并 上 传 到 Primary NameNode 进行 更 新 。 
当 NameNode 发 生 故 障 时 ， 极 端 情况 下 (NameNode 彻底 无 法 恢复 )， 可 以 在 备用 节点 上 启动 
一 个 NameNode， 读 取 Checkpoint 信息 ， 提 供 服务 。 


(4) Hadoop 的 Backup Node 方案 
利用 新 版 本 Hadoop 自身 的 Failover 措施 ， 配 置 一 个 Backup Node，Backup Node 在 内 存 和 本 
地 磁盘 均 保存 了 HDFS 系统 最 新 的 名 字 空 间 元 数据 信息 。 如 果 NameNode 发 生 故 障 , 可 使 用 Backup 
Node 中 最 新 的 元 数据 信息 。 


相关 技术 介绍 


在 上 一 节 我 们 对 云 文 件 系 统 有 了 基本 的 认识 ， 本 节 将 介绍 本 云 文件 系统 的 开发 细节 ， 详 细 介 
绍 本 系统 涉及 的 集中 核心 技术 和 理论 知识 。 

系统 的 开发 平台 采用 的 是 MyEclipse + Tomcat+ MySQL+ Hadoop， 下 面 将 分 别 对 本 系统 所 用 
到 的 技术 和 主要 开发 工具 进行 介绍 。 


12.3.1 Hadoop HDFS 介绍 


Hadoop 是 由 Apache Lucene 创始 人 Doug Cutting 创建 的 一 个 分 布 式 系统 基础 架构 。 它 起 源 于 
-个 开源 的 搜索 引擎 Apache Nutch， 其 本 身 也 是 Lucene 项 目的 一 部 分 。Hadoop 充分 利用 集群 高 
速 运算 和 存储 的 威力 实现 了 一 个 分 布 式 的 文件 系统 (Hadoop Distributed File System, HDFS ),HDFS 
有 高 容错 性 的 特点 , 可 以 用 来 部 署 在 低廉 的 硬件 上 。 而 且 它 提供 高 传输 率 来 访问 应 用 程序 的 数据 ， 
适合 那些 有 着 超大 数据 集 的 应 用 程序 。HDFS 放宽 了 对 POSIX 的 要 求 ， 可 支持 以 流 的 形式 访问 文 
件 系 统 中 的 数据 。 
Hadoop 由 多 个 部 分 构成 ， 其 最 底层 是 Hadoop Distributed File System (HDFS)， 它 存储 着 
Hadoop 集群 中 所 有 存储 节点 上 的 文件 。 HDFS 的 上 一 层 是 由 JobTrackers 和 TaskTrackers 组 成 的 
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MapReduce 引擎 。Hadoop 架构 如 图 12.6 所 示 。 




















TCPIIP NameNode 
Networking 
DataNode DataNode | DataNode DataNode 


























图 12.6 Hadoop 集群 的 简化 视图 


如 图 12.6 所 示 ，Hadoop 简单 地 由 三 部 分 组 成 : 客户 端 、NameNode 节点 和 后 台 集 群 ， 客 户 端 
通过 TCP/IP 协议 与 其 他 部 分 进行 通信 。 

HDFS 是 一 个 典型 的 主 /从 架构 ， 它 包括 一 个 NameNode 节点 〈 主 节点 ) 和 多 个 DataNode 节 
点 〈 从 节点 ) 并 提供 应 用 程序 的 访问 接口 。NameNode 是 整个 文件 系统 的 管理 节点 ， 它 负责 文件 
系统 名 字 空 间 的 管理 与 维护 ， 同 时 负责 客户 端 文件 的 操作 的 控制 以 及 集体 存储 的 管理 与 分 配 ; 
DataNode 提供 真实 文件 数据 的 存储 服务 。 对 普通 客户 而 言 , HDFS 就 是 一 个 传统 的 分 级 文件 系统 ， 
可 以 创建 、 删 除 、 移 动 或 重 命名 文件 等 。HDFS 的 一 个 仅 存 的 缺点 是 只 有 一 个 NameNode。 

文件 在 HDFS 中 被 分 成 块 ， 然 后 主机 将 这 些 块 复制 到 多 个 计算 机 〈DataNode) 中 。 块 的 大 小 
通常 为 64MB， 在 创建 文件 时 由 客户 机 决定 复制 的 块 数量 。NameNode 可 以 控制 所 有 文件 操作 。 
HDFS 内 是 基于 标准 的 TCP/IP 协议 进行 通信 的 。 

NameNode 在 HDFS 中 单独 机 器 上 运行 ， 负 责 控 制 外 部 客户 端的 访问 并 管理 文件 系统 的 名 称 
空间 。NameNode 决定 了 文件 在 聚 群 上 面 的 分 布 情况 。 常 见 的 有 3 个 复制 块 ， 第 一 个 复制 块 存储 
在 同一 个 机 架 的 不 同 节点 上 ， 最 后 一 个 复制 块 存储 在 不 同 机 架 的 不 同 节点 上 。 实 际 的 LO 操作 没 
有 经 过 NameNode, 经 过 NameNode 的 数据 只 有 表示 DataNode 和 块 的 文件 映射 的 元 数据 。 当 外 
部 客户 机 发 送 要 求 创建 文件 的 请 求 时 , NameNode 会 以 该 块 的 第 一 个 副本 的 DataNode IP 地 址 和 
块 标识 作为 响应 。 该 NameNode 还 会 通知 其 他 将 要 接收 该 块 的 副本 的 DataNode。 

NameNode 在 一 个 称 为 FsImage 的 文件 中 存储 所 有 关于 文件 系统 名 称 空间 的 信息 。 这 个 文 
件 和 一 个 包含 所 有 事务 的 记录 文件 (这 里 是 EditLog) 将 存储 在 NameNode 的 本 地 文件 系统 上 。 
FsImage 和 EditLog 文件 也 需要 复制 副本 ， 以 防 文件 损坏 或 NameNode 系统 丢失 。 

DataNode 通常 在 HDFS 实例 中 的 单独 机 器 上 运行 。Hadoop 集群 包含 一 个 NameNode 和 大 
量 的 DataNode，DataNode 的 结构 普遍 是 由 机 架 组 成 的 ， 机 架 通 过 一 个 交换 机 来 连接 所 有 的 系统 。 

DataNode 响应 来 自 HDFS 客户 端的 读 写 操作 和 来 自 NameNode 的 对 数据 的 创建 、 删 除 和 块 
的 复制 命令 。NameNode 处 理 响应 依靠 每 个 DataNode 的 定期 心跳 消息 的 传递 。 每 条 心跳 消息 都 
包含 了 一 个 块 信息 报告 NameNode 根据 这 个 报告 来 验证 块 的 映射 和 其 他 文件 系统 的 元 数据 。 若 
DataNode 不 能 正常 发 送 心跳 消息 , NameNode 将 进行 修复 , 该 操作 将 重新 复制 在 该 节点 上 所 有 丢 
失 的 块 。 

HDFS 的 整体 架构 如 图 12.7 所 示 ， 整 个 系统 可 以 分 为 三 个 部 分 ， 即 客户 端 、 主 控 节 点 和 数据 
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节点 ， 其 设计 目标 是 提供 一 个 云 文件 系统 。 系 统 将 目录 结构 和 文件 内 容 通过 网 络 存储 在 远 端 系统 
中 ， 而 不 是 集中 存储 在 本 地 磁盘 中 。 

主 控 节点 是 HDFS 的 管理 者 ， 主 要 负责 文件 系统 的 命名 空间 、 集 群 的 配置 信息 和 数据 块 的 复 
制 信息 等 ， 并 将 文件 系统 的 元 数据 存储 在 内 存 中 ;数据 节点 是 文件 实际 存储 的 位 置 ， 它 将 数据 块 
信息 存储 在 本 地 文件 系统 中 ， 并 且 通 过 周期 性 的 心跳 报 文 将 所 有 数据 块 信息 发 送 给 主 控 节 点 。 系 
统 整体 结构 如 图 12.7 所 示 。 





二 |、 元 数据 信息 《 结 点 名 称 ， 块 信息 ，.…) 























元 数据 操作 文件 位 置 : /home/foo/data，3 
客 妈 端 
读 操作 数据 节点 数据 节点 
国 国 国 sw 国 国 .- 
加 四 加 









































图 12.7 HDFS 架构 图 


12.3.2” 主 控 节 点 和 数据 节点 


HDFS 采用 的 是 主 /从 架构 。HDFS 集群 是 由 一 个 主 控 节点 和 一 些 数据 节点 组 成 的 。 主 控 节点 
是 一 个 中 心服 务 器 ， 它 负责 管理 HDFS 云 文 件 系 统 的 名 字 空 间 (namespace) 和 客户 端 对 文件 的 访 
问 操作 。 集 群 中 的 数据 节点 一 般 是 一 个 管理 点 ， 负 责 管理 它 所 在 节点 上 的 存储 情况 。 

HDFS 显示 了 文件 系统 的 名 字 空 间 ， 用 户 可 以 以 文件 的 形式 存储 自己 的 数据 。 在 文件 系统 内 
部 ， 一 个 完整 的 文件 其 实 被 分 成 了 一 个 或 多 个 数据 块 ， 这 些 数 据 块 存储 在 一 组 数据 节点 上 。 主 控 
节点 负责 管理 文件 系统 的 名 字 空 间 ， 如 打开 文件 、 关 闭 文 件 、 重 命名 文件 或 目录 等 。 它 也 用 来 确 
定数 据 块 到 具体 数据 节点 的 映射 方式 。 文 件 系 统 客户 端的 读 写 请 求 由 数据 节点 负责 处 理 。 对 数据 
块 的 创建 、 删 除 和 复制 等 操作 也 是 在 主 控 节点 的 统一 调度 下 进行 的 。HDFS 默认 的 数据 块 大 小 为 
64MB， 副本 因子 为 3。 整 个 集群 中 ， 能够 同时 提供 服务 的 只 有 主 控 节点 。 每 个 数据 节点 周期 性 地 
发 送 心跳 报 文 给 主 控 节 点 ， 心 跳 报 文 发 送 的 成 功 与 否决 定 了 该 数据 节点 能 否 正常 工作 。 

主 控 节 点 和 数据 节点 可 以 在 普通 的 商用 机 上 运行 ， 这 些 机 器 通常 运行 着 GNU/Linux 操作 系 
统 。HDFS 采用 的 是 Java 语言 开发 。 主 控 节 点 或 数据 节点 可 以 部 署 在 任何 支持 Java 的 机 器 上 。 由 
于 Java 语言 的 可 移植 性 极 强 ，HDFS 可 以 部 署 到 各 种 类 型 的 机 器 上 。 其 中 一 个 典型 的 部 署 实例 是 
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一 台 机 器 上 只 运行 一 个 主 控 节 点 ， 但 是 集群 中 的 其 他 机 器 分 别 运 行 一 个 数据 节点 。 这 种 架构 并 不 
排斥 在 一 台 机 器 上 运行 多 个 数据 节点 。 集 群 中 单一 主 控 节 点 的 结构 在 很 大 程度 上 简化 了 系统 架构 。 
主 控 节点 是 所 有 HDFS 元 数据 的 管理 者 和 仲裁 者 ， 它 也 是 HDFS 的 核心 模块 。 

在 HDFS 中 ，HDFS 云 文件 系统 的 元 数据 存储 在 主 控 节 点 上 。 主 控 节点 中 的 逻辑 相对 于 数据 
节点 而 言 更 复杂 但 是 数据 量 并 不 大 。 主 控 节点 将 文件 数据 被 拆 分 成 为 多 个 数据 块 存储 在 不 同 的 数 
据 节点 中 。 每 个 数据 块 在 数据 节点 中 都 为 一 对 文件 : 一 个 是 数据 文件 ， 另 一 个 是 含有 附加 信息 的 
元 数据 文件 。 

所 有 的 HDFS 内 部 通信 都 是 构建 在 TCP/IP 协议 上 的 。HDFS 通过 一 套 RPC 机 制 来 实现 各 服 
务 间 通信 的 协议 。 每 一 对 服务 器 间 的 通信 协议 , 都 被 定义 为 在 独立 的 线程 中 处 理 RPC 请 求 的 一 个 
接口 。 


12.3.3 页面 展现 技术 


HTML (Hypertext Markup Language) 是 一 种 规范 ， 一 种 标准 ， 它 通过 标记 符号 来 标记 要 显示 
的 网 页 中 内 容 的 各 个 部 分 。 网 页 文件 本 身 是 一 种 文本 文件 ， 通 过 在 文本 文件 中 添加 标记 符 ， 可 以 
告诉 浏览 器 如 何 显示 其 中 的 内 容 ， 浏 览 器 按 顺 序 来 解析 网 页 文件 ， 然 后 根据 标记 符 解释 和 显示 其 
标记 的 内 容 ， 它 将 忽略 网 页 文件 中 书写 出 错 的 标记 ， 且 不 停止 其 解释 执行 过 程 ， 通 过 显示 效果 ， 
编程 者 可 以 分 析出 错 原因 和 出 错位 置 。 但 对 于 不 同 的 浏览 器 ， 对 同一 标签 可 能 会 有 不 完全 相同 的 
解释 ， 而 会 出 现 不 同 的 显示 效果 。 

JavaScript 是 一 种 基于 对 象 和 事件 驱动 并 具有 相对 安全 性 的 客户 端 脚本 语言 。 它 可 以 给 HTML 
网 页 添加 动态 功能 ， 如 响应 用 户 的 各 种 操作 。 它 是 一 种 弱 类 型 、 动 态 、 基 于 原型 的 语言 ， 可 以 支 
持 类 。JavaScript 也 可 以 用 于 服务 器 端 编程 等 其 他 场合 。 完 整 的 JavaScript 包含 三 个 部 分 : 字 节 顺 
序 记号 ， 文 档 对 象 模型 ，ECMAScript。 

CSS (Cascading Style Sheet) 可 译 为 “ 层 车 样式 表 ”， 通 常用 它 来 定义 如 何 显示 HTML 元 素 ， 
它 用 于 控制 Web 页 面 的 外 观 。 通 过 使 用 CSS 实现 页 面 的 内 容 与 表现 形式 分 离 。 


12.3.4 页面 控制 技术 


Servlet 是 在 服务 器 上 运行 的 小 程序 。 这 个 词 是 在 Java Applet 的 环境 中 创造 的 ，Java Applet 是 
一 种 当 作 单独 文 件 跟 网 页 一 起 发 送 的 小 程序 ， 它 通常 在 服务 器 端 运行 ， 为 用 户 进行 运算 或 者 根据 
用 户 互 作用 定位 图 形 等 。 

服务 器 上 需要 一 些 程序 ， 常 常 是 根据 用 户 输入 访问 数据 库 的 程序 。 这 些 通常 是 使 用 公共 网 关 
接口 (Common Gateway Interface，CGI) 应 用 程序 完成 的 。 然 而 ， 在 服务 器 上 运行 Java， 这 种 程 
序 可 使 用 Java 编程 语言 实现 。 在 通信 量 大 的 服务 器 上 ，Java Servlet 的 优点 在 于 它们 的 执行 速度 快 
于 CGI 程序 。 各 个 用 户 请 求 被 激活 成 单个 程序 中 的 一 个 线程 ， 而 无 需 创 建 单独 的 进程 ， 这 意味 着 
服务 器 端 处 理 请 求 的 系统 开销 将 明显 降低 。 

JSP 全 名 为 Java Server Page， 它 是 由 Sun Microsystems 公司 倡导 、 许 多 公司 参与 建立 的 一 种 


494 


第 12 章 基于 HDFS 的 云 文件 系统 


动态 技术 标准 。JSP 网 页 就 是 在 HTML 文件 中 加 入 Java 程序 片段 和 JSP 标签 。 其 中 Java 程序 片 
段 可 以 操纵 数据 库 、 执 行 网 页 的 重新 定向 以 及 发 送 E-mail 等 。 在 服务 器 端 执行 了 所 有 的 程序 操作 ， 
它 仅仅 将 结果 通过 网 络 传送 给 客户 端 ， 这 样 大 大 降低 了 对 客户 端 配置 的 要 求 ， 即 使 客户 浏览 器 端 
不 支持 Java， 也 可 以 访问 JSP 网 页 。 

JSP 是 一 个 简化 的 Servlet 设计 ， 它 完成 了 HTML 语法 对 Java 的 扩张 。 与 Servlet 一 样 ，JSP 
运行 在 服务 器 端 , 它 送 回 给 客户 端 浏览 器 的 只 是 一 个 HTML 文本 , 客户 端 有 浏览 器 就 能 浏览 内 容 。 
收 到 JSP 网 页 的 请 求 时 Web 服务 器 首先 执行 请 求 的 程序 段 ， 然 后 将 执行 结果 以 HTML 代码 的 形 
式 返 回 给 客户 端 浏览 器 。 插 入 的 Java 程序 段 可 以 操作 数据 库 并 对 网 页 进行 重新 定向 等 操作 ,， 它 实 
现 了 动态 网 页 所 需要 的 所 有 基本 功能 。 

JSP 技术 使 用 Java 编程 语言 编写 类 XML 的 tags 和 scriptlets， 来 封装 产生 动态 网 页 的 处 理 届 
辑 。 网 页 还 能 通过 tags 和 scriptlets 访问 存在 于 服务 端的 资源 的 应 用 逻辑 。JSP 将 网 页 逻辑 与 网 页 
设计 的 显示 分 离 , 支持 可 重用 的 基于 组 件 的 设计 , 使 基于 Web 的 应 用 程序 的 开发 变 得 迅速 和 容易 。 
JSP (Java Server Pages) 是 一 种 动态 页 面 技术 , 它 的 主要 目的 是 将 表示 届 辑 从 Servlet 中 分 离 出 来 。 

JSP 页 面 是 由 HTML 代码 和 Java 代码 组 成 的 。 服 务 器 得 到 客户 端的 请 求 后 处 理 这 些 Java 代 
码 ,然后 服务 器 将 生成 的 HTML 页 面 结果 返回 给 客户 端 ,JSP 的 技术 基础 是 Java Servlet, Java Servlet 
和 JSP 配合 可 以 完成 大 型 的 Web 应 用 程序 的 开发 需要 。JSP 具有 完全 的 面向 对 象 ， 简 单 易 用 ， 平 
台 无 关 性 ， 安 全 可 靠 ， 面 向 因特网 等 特点 。 





详细 设计 与 实现 


前 面 介绍 了 本 系统 的 具体 需求 ， 本 节 将 对 本 系统 设计 与 实现 进行 具体 的 介绍 ， 并 将 给 出 部 分 
功能 模块 的 关键 代码 。 


12.4.1 云 文件 系统 的 操作 流程 
通过 系统 的 结构 分 析 ， 设 计 程 序 的 流程 图 如 图 12.8 所 示 。 
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进入 管理 员 界 面 


























































































































在 管理 员 界 面 返回 结果 在 用 户 界面 返回 结果 
退出 系统 


图 12.8 HDFS 云 文件 系统 操作 流程 图 


从 图 12.8 可 以 看 出 ,管理 员 和 用 户 通 过 登录 进入 系统 ， 操 作 管理 系统 或 管理 自己 的 文件 ， 图 
示 明 确 给 出 了 系统 详细 的 操作 流程 。 


12.4.2 云 文件 系统 的 模块 设计 


云 文件 系统 的 功能 模块 主要 由 基本 操作 模块 、 后 台 管理 模块 、 用 户 服务 模块 组 成 。 


1. 基本 操作 模块 


在 基本 操作 模块 中 的 登录 模块 最 主要 的 是 身份 验证 功能 ， 使 用 本 系统 之 前 必须 首先 通过 身份 
验证 。 其 目的 在 于 维护 系统 安全 性 并 对 用 户 类 别 进行 区 分 ， 管 理 员 将 进入 管理 员 界 面 ， 用 户 进入 


496 


第 12 章 基于 HDFS 的 云 文件 系统 


用 户 界面 。 其 功能 在 于 对 申请 登录 用 户 进行 身份 验证 ， 验 证 通过 者 才 可 以 进入 系统 。 用 户 登 录 模 
块 的 IPO 图 表示 如 图 12.9 所 示 。 
输入 处 理 输出 


用 户 输入 账号 、 密 码 判断 > in 


图 12.9 身份 验证 模块 IPO 图 


从 图 12.9 可 以 看 出 用 户 输入 账号 和 密码 后 ， 登 录 模 块 将 信息 和 数据 库 中 的 信息 进行 核对 ， 若 
正确 则 跳 转 到 用 户 界面 ， 若 信息 错误 则 提示 错误 信息 并 跳 转 到 登录 界面 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.10 所 示 。 


管理 员 / 川 户 登录 页 面 | 登录 模块 数据 库 user 雪 系统 页 面 
1 帐号 和 密码 1 



































传递 登录 信息 










1 
1 
8 成 功 ， 跳 转 到 管理 /用 户 内 而 
T 上 
|| 
图 12.10 管理 员 / 用 户 登录 模块 时 序 图 
从 图 12.10 可 以 看 出 ， 管 理 员 或 用 户 在 登录 页 面 输入 用 户 名 和 密码 后 单 击 “ 登 录 ” 按 钮 ， 系 
统 会 调用 登录 模块 中 的 login 方法 对 输入 的 信息 进行 处 理 ， 将 输入 的 信息 与 数据 库 user 表 中 信息 
作对 比 并 验证 其 权限 ， 完 全 符合 后 返回 登录 成 功 标志 并 跳 转 到 对 应 的 系统 主页 (管理 员 进 入 管理 
界面 ， 用 户 进入 用 户 界 面 )， 若 信息 不 符 ， 则 返回 错误 提示 信息 并 重新 跳 转 到 登录 界面 。 
2. 后 台 管 理 模块 
后 台 管 理 支持 管理 员 对 系统 的 文件 查看 、 用 户 管理 、 集 群 管理 ， 具 体 实现 如 下 。 
(1) 文件 管理 模块 设计 
系统 的 管理 员 具 有 管理 系统 所 有 文件 的 功能 ， 此 功能 赋予 管 理 员 查看 并 搜索 系统 中 所 有 用 户 
文件 的 权限 ， 以 便 查看 系统 的 运作 情况 等 信息 。 文 件 管理 的 IPO 图 表示 如 图 12.11 所 示 。 





497 


实战 大 数据 


输入 处 理 输出 


文件 名 搜索 系统 中 的 文件 一 返回 搜索 结果 


图 12.11 文件 管理 模块 IPO 图 


从 图 12.11 可 以 看 出 用 户 输入 文件 名 ， 文 件 操作 模块 根据 文件 名 进行 检索 并 返回 检索 结果 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.12 所 示 。 


PP Fe et 


















































输入 文件 名 /选择 文件 类 型 | 






传递 信息 


返回 搜索 结果 


将 搜索 信息 显示 在 界面 


图 12.12 文件 管理 模块 时 序 图 
从 图 12.12 可 以 看 出 ， 管 理 员 可 以 通过 输入 文件 名 或 选择 文件 类 型 搜索 系统 中 的 所 有 文件 ， 
图 中 给 出 了 明确 的 操作 过 程 。 


(2) 节点 管理 模块 设计 
系统 的 节点 管理 模块 赋予 管理 员 管理 系统 后 台 集 群 的 功能 。 节 点 管理 模块 的 IPO 图 表示 如 图 
12.13 所 示 。 


输入 处 理 输出 


节点 信息 一 一 更 新 节点 六 一 | 新 的 节点 信息 


图 12.13 节点 管理 模块 IPO 


从 图 12.13 可 以 看 出 管理 员 输 入 管理 节点 操作 信息 ， 节 点 操作 模块 根据 信息 管理 节点 ， 完 成 
后 返回 新 的 节点 信息 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.14 所 示 。 
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管理 品 [ee | 节点 搜 作 楼 记 点 横 











上。 过节 中 操作 类 型 
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| | 
| 
| 显示 现在 节点 信息 
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| 
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图 12.14 节点 管理 模块 时 序 图 


从 图 12.14 可 以 看 出 ， 管 理 员 可 以 通过 选择 节点 操作 的 类 型 、 填 写 新 的 节点 信息 ， 配 置 系统 
中 的 集群 ， 图 中 给 出 了 明确 的 操作 过 程 。 


(3) 添加 用 户 模块 设计 
系统 的 用 户 管理 使 管理 员 可 以 添加 系统 用 户 。 添 加 用 户 模块 的 IPO 图 表示 如 图 12.15 所 示 。 


输入 处 理 输出 











用 户 信息 ”六 一 | 更 新 数据 库 一 一 返回 结果 





























图 12.15 添加 用 户 模块 IPO 图 


从 图 12.15 可 以 看 出 管理 员 输 入 用 户 信息 ， 用 户 操作 模块 将 用 户 信息 添 加 到 数据 库 ， 并 返 
添加 结果 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.16 所 示 。 


加 








选择 添加 用 户 













填写 用 户 信息 








格式 正确 写 入 数据 


写 入 成 功 


添加 成 功 继续 添加 


1 
| 
! 
! 
1 
! 
1 
1 
1 
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12.16 ”添加 用 户 模块 时 序 图 


499 


从 图 12.16 可 以 看 出 , 管理 员 在 用 户 管理 页 面 选 择 添加 用 户 然后 输入 用 户 信息 添加 系统 用 户 ， 
图 中 给 出 了 明确 的 操作 过 程 。 

(4) 修改 用 户 信息 模块 设计 

系统 的 用 户 管理 使 管理 员 可 以 修改 系统 的 用 户 信息 。 修 改 用 户 信息 模块 的 IPO 图 表示 如 图 
12.17 所 示 。 


输入 处 理 输出 


新 的 用 户 信息 人 一 一 一 > 更 新 数据 库 六 一 | 返回 结果 


图 12.17 修改 用 户 模块 IPO 图 
从 图 12.17 可 以 看 出 管理 员 输 入 新 的 用 户 信息 ， 用 户 操作 模块 在 数据 库 中 更 新 用 户 信息 ， 完 
成 后 返回 更 新 结果 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.18 所 示 。 
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填写 用 户 信息 


修改 数据 库 
修改 成 功 


ns 


12.18 修改 用 户 信息 模块 时 序 图 


从 图 12.18 可 以 看 出 ， 管 理 员 在 用 户 管理 页 面 选择 用 户 然后 可 以 看 到 用 户 信息 ， 再 选择 修改 
用 户 信息 ， 进 入 用 户 信息 修改 界面 进行 修改 ， 图 中 给 出 了 明确 的 操作 过 程 。 
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(5) 删除 用 户 模块 设计 
系统 的 用 户 管理 使 管理 员 可 以 删除 系统 用 户 。 删 除 用 户 模块 的 IPO 图 表示 如 图 12.19 所 示 。 


输入 处 理 输出 





更 新 数据 库 并 删除 系统 中 用 


删除 操作 户 的 文件 


返回 结果 









图 12.19 删除 用 户 模块 PO 图 
从 图 12.19 可 以 看 出 管理 员 选 择 删除 用 户 操作 ， 用 户 操作 模块 收 到 信息 后 删除 数据 库 中 用 户 
的 信息 和 该 用 户 的 文件 ， 完 成 后 返回 操作 结果 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.20 所 示 。 
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选择 出 除 用 户 | | 
! ! 

! ! 

! ! 
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12.20 ”删除 用 户 信息 模块 时 序 图 


从 图 12.20 可 以 看 出 ， 管 理 员 在 用 户 管理 页 面 选择 用 户 然后 可 以 看 到 用 户 信息 ， 再 选择 删除 
用 户 ， 图 中 给 出 了 明确 的 操作 过 程 。 


3. 用 户 服务 模块 


(1) 文件 上 传 模块 设计 
系统 的 用 户 可 以 在 用 户 页 面 上 传 自己 的 文件 。 文 件 上 传 模块 的 IPO 图 表示 如 图 12.21 所 示 。 
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实战 大 数据 


输入 处 理 输出 


本 地 文件 一 一 上 传 到 系统 后 台 一 文件 列表 


图 12.21 文件 上 传 模块 PO 图 
从 图 12.21 可 以 看 出 用 户 选择 本 地 文件 , 文件 操作 模块 收 到 信息 后 将 该 文件 上 传 到 文件 系统 ， 
完成 后 返回 上 传 后 的 文件 列表 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.22 所 示 。 






































选择 上 传 文件 
选择 本 地 文件 得 到 的 文件 信息 








传 入 文件 


现在 的 所 有 文件 
现在 的 文件 列表 [人 


12.22 文件 上 传 模块 时 序 图 


从 图 12.22 可 以 看 出 ， 用 户 在 用 户 页 面 选择 上 传 文件 进入 文件 选择 框 进行 文件 上 传 ， 图 中 给 
出 了 明确 的 操作 过 程 。 

(2) 文件 下 载 模块 设计 

系统 的 用 户 可 以 在 用 户 页 面 下 载 自己 的 文件 。 文 件 下 载 模块 的 PO 图 表示 如 图 12.23 所 示 。 


输入 处 理 输出 


选择 下 载 一 一 文件 下 载 到 本 地 一 文件 列表 


12.23 文件 下 载 模块 PO 


从 图 12.23 可 以 看 出 用 户 选择 文件 下 载 ， 文 件 操作 模块 收 到 下 载 信息 后 将 该 文件 下 载 到 用 户 
客户 端 ， 完 成 后 返回 原文 件 列表 界面 ， 此 时 用 户 本 地 空间 的 相应 位 置 会 有 已 经 下 载 好 的 文件 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.24 所 示 。 
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[本 ] 区 ea。 em) 区 











1 
选择 下载 文件 。 | 







传递 文件 信息 
查找 该 文件 


T 
1 
1 
1 
1 
1 
1 


12.24 文件 下 载 模块 时 序 图 
从 图 12.24 可 以 看 出 ， 用 户 在 用 户 页 面 选择 文件 后 面 的 下 载 文件 按钮 将 调用 文件 选择 存储 框 
选择 文件 存储 的 本 地 位 置 ， 选 择 好 后 开始 下 载 文件 ， 图 中 给 出 了 明确 的 操作 过 程 。 
(3) 文件 重 命 名 模块 设计 
系统 的 用 户 可 以 在 用 户 页 面 选择 相应 文件 后 面 的 修改 文件 名 按钮 ， 然 后 输入 新 的 文件 名 并 提 
交 ， 进 行文 件 名 的 修改 操作 。 文 件 重 命名 模块 的 IPO 图 表示 如 图 12.25 所 示 。 





输入 处 理 输出 








文件 名 六 一 | 修改 文件 名 六 一 一 文件 列表 


























12.25 文件 重 命名 模块 PO 图 


从 图 12.25 可 以 看 出 用 户 填写 新 的 文件 名 ， 文 件 操作 模块 收 到 信息 后 将 该 文件 名 修改 成 新 的 
名 字 ， 系 统 验证 新 文件 名 的 合法 性 ， 如 果 文件 名 合法 则 进行 修改 ， 完 成 后 返回 文件 列表 ， 文 件 名 
已 经 被 修改 ， 如 果 文 件 名 不 合法 系统 提示 错误 信息 并 返回 文件 列表 ， 文 件 名 未 被 修改 。 

本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.26 所 示 。 


1 1 
1 1 
| 选择 文件 重 命名 | 








传递 文件 信息 





查找 该 文件 并 重 命名 


文件 信息 


图 12.26 文件 重 命名 模块 时 序 图 


从 图 12.26 可 以 看 出 ， 用 户 在 用 户 页 面 文 件 后 选择 重 命 名 修改 文件 的 名 称 ， 图 中 给 出 了 明确 
的 操作 过 程 。 
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(4) 文件 搜索 模块 设计 
系统 的 用 户 可 以 在 用 户 页 面 的 搜索 框 搜索 文件 或 选择 左边 文件 类 型 搜索 文件 。 文 件 搜索 模块 





的 IPO 图 表示 如 图 12.27 所 示 。 
输入 处 理 输出 
文件 名 查找 文件 二 | 文件 列表 




















图 12.27 文件 搜索 模块 IPO 图 
从 图 12.27 可 以 看 出 用 户 输入 要 查找 的 文件 名 ， 文 件 操作 模块 收 到 信息 后 对 该 用 户 的 文件 按 
文件 名 遍历 寻找 该 文件 ， 完 成 后 返回 找到 的 文件 列表 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.28 所 示 。 


| 
输入 文件 名 /选择 文件 类 型 | 











传递 搜索 信息 





按 信 息 找 文件 


| 
i 
| 关 
1 守 
| 全 
| 
| 
| 
| 
| 


12.28 ”文件 搜索 模块 时 序 图 


从 图 12.28 可 以 看 出 ， 用 户 在 搜索 框 输入 关键 字 ， 单 击 搜索 进行 文件 名 的 模糊 搜索 ， 单 击 页 
面 左边 的 文件 类 型 使 用 类 型 搜索 ， 将 按 用 户 所 需 的 文件 类 型 列 出 所 有 该 类 型 的 文件 ， 图 中 给 出 了 
明确 的 操作 过 程 。 

(5) 文件 删除 模块 设计 

系统 的 用 户 可 以 在 用 户 页 面相 应 的 文件 后 面 单 击 删除 文件 按钮 将 文件 删除 到 回收 站 。 文 件 删 
除 模块 的 IPO 图 表示 如 图 12.29 所 示 。 





输入 处 理 输出 


选择 删除 文件 删除 文件 于 文件 列表 | 


图 12.29 文件 删除 模块 IPO 


从 图 12.29 可 以 看 出 用 户 选择 文件 后 面 的 删除 按钮 ， 文 件 操作 模块 收 到 信息 后 对 文件 执行 删 
除 操作 ， 完 成 后 返回 文件 列表 ， 如 果 删 除 成 功 则 返回 的 文件 列表 中 没有 刚 删 除 的 文件 ， 和 否则 列表 
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中 该 文件 还 存在 。 经 过 测试 文件 可 以 成 功 删 除 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.30 所 示 。 











用 户 用 户 文件 管理 页 面 | | 文件 操作 模块 | 














选择 文件 后 的 删除 








删除 文件 


新 的 文件 信息 


图 12.30 ”文件 删除 模块 时 序 图 
从 图 12.30 可 以 看 出 ,用户 在 文件 后 选择 删除 文件 使 用 该 模块 ， 图 中 给 出 了 明确 的 操作 过 程 。 


(6) 回收 站 管理 模块 设计 
系统 的 用 户 可 以 在 回收 站 页 面 管理 回收 站 的 文件 ， 可 以 恢复 文件 、 删 除 文件 、 清 空 回收 站 。 
回收 站 管理 模块 的 IPO 图 表示 如 图 12.31 所 示 。 


输入 处 理 输出 


选择 操作 





12.31 回收 站 管理 模块 PO 图 
从 图 12.31 可 以 看 出 用 户 进入 回收 站 后 选择 文件 后 面 的 操作 按钮 ， 如 果 是 恢复 文件 ， 回 收 站 
操作 模块 对 该 文件 进行 恢复 操作 ， 如 果 是 删除 文件 ， 该 模块 对 文件 进行 彻底 删除 ， 如 果 用 户 选择 
清空 回收 站 则 该 操作 对 回收 站 进行 清空 操作 。 对 用 户 的 操作 执行 完成 后 返回 回收 站 文件 列表 。 
本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.32 所 示 。 


| a | 回收 站 管理 页 面 回收 站 操作 模块 回收 站 


1 
| 选择 操作 类 型 
1 
1 
| 
上 
1 
1 
1 
1 
| 
| 
| 
| 
| 
| 














传递 文件 操作 信息 








回收 站 操作 


返回 新 的 回收 站 文件 信息 


图 12.32 回收 站 管理 模块 时 序 图 
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从 图 12.32 看 出 ， 用 户 在 回收 站 页 面 选择 相应 的 操作 ， 回 收 站 操作 模块 收 到 操作 命令 后 进行 
回收 站 管理 ， 图 中 给 出 了 详细 的 操作 过 程 。 
(7) 修改 个 人 信息 模块 设计 


系统 的 用 户 可 以 在 用 户 页 面 单 击 修改 个 人 信息 按钮 进入 修改 个 人 信息 页 面 ， 用 户 填写 合法 的 
新 信息 提交 后 ， 该 模块 对 新 的 用 户 信息 进行 相应 的 处 理 。 修 改 个 人 信息 模块 的 IPO 图 表示 如 图 








12.33 所 示 。 
输入 处 理 输出 
个 人 信息 修改 数据 库 人 ”| 用 户 信 息 




















图 12.33 修改 个 人 信息 模块 IPO 图 


从 图 12.33 可 以 看 出 用 户 在 信息 修改 页 面 输入 新 的 个 人 信息 提交 后 ， 用 户 操作 模块 收 到 信息 
后 核对 信息 的 合法 程度 ， 如 果 信息 不 合法 则 在 输入 框 提示 错误 信息 ， 如 果 合法 则 操作 模块 修改 数 
据 库 中 的 用 户 信息 并 返回 修改 成 功 ， 完 成 后 返回 新 的 用 户 信息 。 

本 模块 的 逻辑 流程 用 时 序 图 表示 如 图 12.34 所 示 。 


选择 修改 信息 ! 





传递 用 户 信息 





12.34 ”修改 个 人 信息 模块 时 序 图 


从 图 12.34 看 出 ， 用 户 在 用 户 页面 选 择 单 击 修改 个 人 信息 按钮 进入 个 人 信息 修改 模块 ， 图 中 
给 出 了 明确 的 操作 过 程 。 


12.4.3” 云 文件 系统 实现 


1. 系统 存储 管理 
云 文件 系统 的 核心 是 一 个 分 布 式 的 文件 系统 。 分 布 式 文件 系统 是 指 文件 系统 管理 的 存储 资源 
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不 直接 连接 在 本 地 结 点 上 ， 而 是 通过 计算 机 网 络 与 结 点 相连 。 它 的 设计 基于 客户 机 /服务 器 模式 ， 
一 个 典型 的 网 络 可 能 包括 多 个 供 多 用 户 访问 的 服务 器 。 云 文件 系统 提供 了 单个 访问 点 和 一 个 逻辑 
树 结构 ， 通 过 它 ， 用 户 在 访问 文件 时 不 需要 知道 它们 的 实际 位 置 ， 分 布 在 多 个 服务 器 上 的 文件 在 
用 户 面前 就 如 同 在 网 络 的 同一 个 位 置 。 另 外 ， 可 以 将 同一 个 网 络 中 的 不 同 计算 机 上 的 共享 文件 夹 
组 织 起 来 ， 形 成 一 个 单独 的 、 逻 辑 的 、 层 次 上 的 共享 的 文件 系统 。 云 文件 系统 通过 对 外 的 接口 让 
用 户 不 需要 了 解 其 内 部 的 复杂 机 制 ， 而 是 可 以 像 普通 的 文件 系统 一 样 进行 文件 的 创建 、 删 除 、 查 
阅 目 录 信 息 等 类 似 的 操作 。 下 面 我 们 分 功能 说 明 该 系统 的 实现 。 
(1) 文件 /目录 的 创建 和 删除 

为 了 对 用 户 屏蔽 实现 的 复杂 性 和 细节 ， 云 文件 系统 中 设计 实现 了 最 终 面向 用 户 的 接口 类 
FileSystem， 它 提供 了 用 户 能 够 对 文件 系统 进行 各 项 基本 操作 的 API。 图 12.35 给 出 了 云 文件 系统 
中 文件 /目录 的 创建 过 程 。 





NameNode 












namenode 





client node 





一 作 
3 FSData 
6. 站 InputStream 
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上 
4. 写 数据 5. 确认 信息 





DataNode DataNode 


datanode 








图 12.35 云 文件 系统 创建 文件 过 程 图 


FileSystem 是 一 个 文件 系统 的 抽象 类 , 针对 云 文 件 系统 的 具体 实现 类 是 DistributedFileSystem 。 
用 户 想 要 在 云 文 件 系统 中 创建 一 个 文件 或 目录 时 ， 就 不 得 不 提 到 XDDFSClient 这 个 类 ， 它 是 一 个 
真正 实现 了 客户 端 功能 的 类 ， 能 够 连接 到 我 们 的 文件 系统 并 执行 基本 的 文件 操作 。 它 使 用 
ClientProtocol 来 和 NameNode 通信 , 并 且 使 用 Socket 直接 连接 到 DataNode 来 完成 数据 块 的 读 写 。 
FSNamesystem 相当 于 一 本 花 名 册 ， 记 录 着 文件 系统 的 一 些 元 数据 ， 比 如 从 文件 名 映射 到 block 列 
表 。 创 建文 件 时 要 在 它 这 里 先 “ 注 册 ” 一 下 。 注 册 的 过 程 有 一 系列 的 检查 ， 包 括 是 否 处 于 “安全 
模式 ”( 系 统 启动 时 需要 检查 数据 完整 性 ,不 允许 写 操作 )、 用 户 是 否 有 操作 权限 等 。 文件 的 创建 
主要 是 通过 FileSystem 的 mkdirs() 方 法 。 这 个 方法 在 XDDFSClient 的 实例 中 调用 其 同名 方法 
mkdirs()， 通 过 系统 的 RPC 机 制 调用 NameNode 的 mkdir0 方 法 ， 最 终 这 个 调用 Push 到 
FSNameSystem 的 一 个 方法 ， 主 要 是 用 来 检验 创建 者 的 访问 权限 。 最 后 通过 FSDirectory 的 方法 ， 
构建 一 个 INodeDirectory 实例 添加 到 文件 系统 的 目录 树 中 。 这 个 时 候 文件 创建 操作 就 算 完成 了 重 
要 的 第 一 步 ， 文 件 系统 中 已 经 有 了 这 个 文件 的 记录 。 创 建文 件 的 序列 图 如 图 12.36 所 示 。 
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实战 大 数据 


EileSystem 





FEsPermission DFSClient DFSOutputStream NameNode 






































1 1 1 
1 1 1 
1 1 
getDefault | 


1 
1 
当 







create(getPathName()),permission 





1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
applyUmask 1 
1 
1 
1 
1 
m 
1 





new DFSOutputStreal 


create(sTc) 














图 12.36 云 文件 系统 文件 操作 序列 图 


在 删除 文件 时 ， 有 一 点 需要 注意 : 用 户 或 者 应 用 删除 某 个 文件 时 ， 这 个 文件 并 没有 立刻 从 
HDFS 中 删除 。 相 反 ，HDFS 将 这 个 文件 重 命名 ， 并 转移 到 /trash 目录 。 当 文件 还 在 /trash 目录 时 ， 
该 文件 可 以 被 迅速 地 恢复 。 文 件 在 /trash 中 保存 的 时 间 是 可 配置 的 ， 当 超过 这 个 时 间 ，Namenode 
就 会 将 该 文件 从 namespace 中 删除 。 文 件 的 删除 ， 也 将 释放 关联 该 文件 的 数据 块 。 并 且 ， 在 文件 
被 用 户 删除 和 HDFS 空闲 空间 的 增加 之 间 会 有 一 个 等 待 时 间 延 迟 。 

下 面 简单 描述 这 一 过 程 中 几 个 比较 重要 的 类 。 

® FileSystem 


FileSystem 是 一 个 通用 文件 系统 的 抽象 基 类 ， 它 可 能 被 实现 为 分 布 式 文件 系统 或 本 地 文件 系 
统 。 在 我 们 的 例子 中 ， 就 有 对 它 的 分 布 式 文件 系统 实现 ， 即 DistributedFileSystem。 当 一 个 具体 的 
文件 系统 被 实现 时 ， 实 现 它 的 具体 输入 输出 流 也 就 不 难 理解 了 。 在 应 用 中 ， 通 过 以 下 方式 来 获得 
FileSystem 的 一 个 实例 : 


FileSystem fs = FileSystem.get (URI.create (uri), conf); 


e NameNode 

NameNode 主要 维护 文件 系统 的 名 字 空 间 和 文件 的 元 数据 。 客 户 端 通过 RPC 机 制 调用 这 个 类 
的 create 方法 在 文件 系统 中 实际 创建 文件 或 目录 。 

ClientProtocol 提供 给 客户 端 ， 用 于 访问 NameNode。 它 包含 了 文件 角度 上 的 HDFS 功能 。 和 
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GFS 一 样 ，HDFS 不 提供 POSIX 形式 的 接口 ， 而 是 使 用 了 一 个 私有 接口 。 一 般 来 说 ， 程 序 员 通 过 
org.apache.Hadoop.fs.FileSystem 来 和 云 文件 系统 打交道 ， 不 需要 直接 使 用 该 接口 。 
。 INode* 类 


云 文件 系统 与 Linux 文件 系统 类 似 ， 都 使 用 inode 来 表示 一 个 文件 。Namenode 包 下 有 


INode*.Java， 类 INode* 抽 象 了 文件 层次 结构 。 如 果 我 们 对 文件 系统 进行 面向 对 象 的 抽象 ， 可 得 到 
如 图 12.37 所 示 的 结构 图 (类 INode*)。 
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图 12.37 INode* 类 图 


INode 是 一 个 抽象 类 , 它 的 两 个 子 类 , 分 别 对 应 着 目录 (INodeDirectory) 和 文件 (INodeFile )。 
INodeDirectoryWithQuota, 如 它 的 名 字 隐 含 的 , 是 带 容量 限制 的 目录 。INodeFileUnderConstruction， 
抽象 了 正在 构造 的 文件 ， 当 需要 在 文件 系统 中 创建 文件 的 时 候 ， 由 于 创建 过 程 比 较 长 ， 目 录 系 统 
会 维护 对 应 的 信息 。 

INode 中 的 成 员 变量 有 : name， 目 录 / 文 件 名 ; modificationTime 和 accessTime 是 最 后 的 修改 
时 间 和 访问 时 间 ; permission 是 访问 权限 。 HDFS 采用 了 和 UNIX/Linux 类 似 的 访问 控制 机 制 。 
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系统 维护 了 一 个 类 似 于 UNIX 系统 的 组 表 (group) 和 用 户 表 〈user)， 并 给 每 一 个 组 和 用 户 一 个 
ID，permission 在 INode 中 是 long 型 ， 它 同时 包含 了 组 和 用 户 信息 。 

INode 中 存在 大 量 的 get 和 set 方法 当然 是 对 上 面 提 到 的 属性 的 操作 导出 属性 中 比较 重要 的 存 
collectSubtreeBlocksAndClear， 用 于 收集 这 个 INode 所 有 后 继 中 的 Block; computeContentSummary， 
用 于 递归 计算 INode 包含 的 一 些 相关 信息 ， 如 文件 数 、 目 录 数 、 占 用 磁盘 空间 。 


® XDDFSClient 


XDDFSClient 提供 了 连接 到 HDFS 系统 并 执行 文件 操作 的 基本 功能 。 它 可 以 让 我 们 从 系统 外 
部 了 解 云 文 件 系 统 。DFSClient 的 成 员 变 量 不 多 ， 而 且 大 部 分 是 系统 的 默认 配置 参数 ， 其 中 比较 
重要 的 是 到 NameNode 的 RPC 客户 端 : 


Public final ClientProtocol namenode; 
final Private ClientProtocol rpcNamenode; 


它们 的 差别 是 namenode 在 mpcNamenode 的 基础 上 增加 了 失败 重 试 功能 。 方 法 
ClientDatanodeProtocolProxy() 用 于 生成 到 DataNode 的 RPC 客户 端 。DFSClient 提供 了 各 种 create 
方法 它们 最 后 都 是 构造 一 个 OutputStream 并 将 文件 名 和 生成 的 OutputStream 加 到 leasechecker 
完成 创建 动作 。 

由 以 上 说 明 可 以 知道 ， 用 户 在 客户 端 通过 一 个 DFSClient 的 实际 对 象 ， 经 过 RPC， 实 际 调用 
NameNode 上 的 服务 ， 完 成 对 云 文件 系统 上 文件 的 创建 。 创 建 流程 如 图 12.38 所 示 。 


Client 通 过 RPC 调 省 NameNode 上 的 服务 





YY 
NameNode 通 过 ReplicationTargetChooser 根 据 
设 定 的 副本 个 数 ， 选 择 多 个 合适 的 datanode 














和 
NameNode 上 申请 “个 新 的 block， 和 申请 
datanode 列 表 封 装 成 LocatedBlock 对 象 








Y 
Client 拿 到 LocatedBlock 后 就 与 多 个 datanode 
连 成 一 个 数据 传输 链 路 














¥ 
在 建立 的 这 条 链 路 上 进行 数据 传送 








12.38 云 文件 系统 创建 文件 的 流程 图 


(2) 文件 下 载 
由 于 文件 存储 功能 都 涉及 文件 的 基本 操作 ， 因 此 涉及 的 系统 中 的 类 和 流程 也 都 大 同 小 异 ， 只 
是 具体 的 功能 用 到 的 类 的 方法 不 同 而 已 : 用 户 想 要 对 云 文件 系统 有 任何 操作 时 ， 均 在 本 地 实例 化 
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出 DFSClient 的 一 个 实际 对 象 ， 然 后 该 对 象 RPC 远程 调用 NameNode 的 相关 方法 ， 对 云 文件 系统 
进行 具体 操作 即 可 。 因 此 ， 下 面 关于 文件 系统 其 他 功能 的 介绍 ， 均 仅 介绍 用 到 的 不 同方 法 ， 对 涉 
及 的 类 不 再 资 述 。 

用 户 需 要 将 云 文 件 系 统 中 的 文件 下 载 到 本 地 时 ， 实 例 化 出 云 文件 系统 和 本 地 文件 系统 的 实际 
对 象 后， 调用 copyToLocalFile() 方 法 即 可 完成 下 载 的 任务 。 


(3) 文件 系统 在 线 查看 

对 于 云 文件 系统 来 说 ， 如 何 能 够 方便 地 读 取 系 统 中 的 内 容 是 使 用 者 关心 的 一 个 问题 。 云 文件 
系统 提供 了 一 个 方便 的 文件 访问 接口 以 进行 文件 系统 内 容 的 读 取 。 这 里 主要 通过 HDFS 提供 的 
API 进行 文件 读 取 。 

HDFS 主要 通过 FileSystem 类 来 完成 对 文件 的 打开 操作 。 和 Java 使 用 Java.io.File 来 表示 文件 
很 不 相同 , HDFS 中 的 文件 是 通过 Path 类 来 表示 的 。FileSystem 通 过 静态 方法 get(Configuration conf) 
来 获得 FileSystem 的 实例 。 通 过 该 实例 ， 可 以 使 用 FileSystem 的 open、seek 等 方法 来 实现 对 文件 
系统 的 访问 。 

通过 FileSystem 的 源 代码 可 以 看 到 , 最 终 open 方法 落 到 一 个 抽象 方法 来 实现 文件 的 打开 , 具 
体 的 实现 方式 由 继承 自 FileSystem 的 具体 文件 系统 的 实现 来 决定 。 

2. 系统 监控 功能 


(1) 系统 状态 展示 
先 看 一 下 图 12.39 的 NameNode 的 类 属 关系 图 。 


[ER Me] 


_ 才 aodsvep 
pl 2 CorruptReplicasMap 
latasets | -一 
Las=e 抽 PendingReplicationBlocks 
er 
和 说 underReplicateBlocks 
















NamenodeProtocol 





ClientDatanodeprotocol 
DataTransferprotocol 


图 12.39 NameNode 类 属 关系 图 


NameNode 对 象 中 保存 了 HDFS 运行 状态 信息 ,在 NameNode 启动 时 , 信息 进行 更 新 和 封装 ， 
同时 NameNode 对 象 在 服务 器 的 Application 中 持久 存在 ， 只 要 通过 自身 对 象 的 get 方法 就 可 以 得 
到 当前 状态 ， 如 从 nameNodeAddress 中 得 到 当前 主机 地 址 (hostName 和 端口 号 (port) 等 。 
VersionJnfo 保存 了 版 本 信息 和 外 部 环境 ， 可 用 于 查询 运行 时 间 、 当 前 用 户 、 版 本 号 等 内 容 。 
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实战 大 数据 
旧版 本 中 只 存在 两 种 类 型 的 NameNode， 即 主 从 NameNode， 其 中 从 NameNode 用 来 周期 性 
地 创建 检查 点 。 但 在 新 版 本 中 有 4 种 NameNode 类 型 ， 分 别 为 : 


e active node， 即 通常 所 说 的 主 NameNode. 
@ backup node， 完 成 备份 功能 。 
e@ checkpoint node， 周 期 性 地 创建 检查 点 。 
e@ standby node， 独 立 的 NameNode。 
(2) 查看 NameNode 日 志 
FSEditLog.Java 类 提供 了 NameNode 操作 日 志和 日 志文 件 的 相关 方法 ， 相 关 类 图 如 图 12.40 
所 示 。 


< 接口 >> 


Javalnternal--OutputStream 



























八 
EdilogFieOwrpurSream Edirl.og FilelnputStream 












numSyne Tong | | 
FSEditLog toralTimeSyne : long TITTEETTT 
EditLogOutput Stream() ~ havaiiable)) ; boolean 
tget*() : String dfin *) : long 
rite(in *) closef) 
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createEditLogFile(in name ; File) 
createNewlfMissing() 

tclose() 

process[OErrortin *) 







! sin ee onpUISI 
1ogEditfin op ; byte, in writables ; Wriouble.) 









EditLogFilelnputStream 


tile : File 
[Stream ; DatalnputStream 


Earl ogFiieinputStreamlin name File) 











bufReady ; DataOutputStream 

ill: ByteBufier 

EL ogFileOuiput Siream) 
reallocate( ) 

getFile(): File 


图 12.40 云 文件 系统 操作 日 志文 件 相 关 类 图 


首先 是 FSEditLog 依赖 的 输入 /输出 流 。 输入 流 基本 上 没有 新 添加 功能 ; 输出 流 在 打开 的 时 候 ， 
会 写 入 日 志 的 版 本 号 〈 最 前 面 的 4 字 节 )， 同 时 ， 每 次 将 内 存 刷 到 硬盘 时 ， 会 为 日 志 尾部 写 入 一 个 
特殊 的 标识 (OP_INVALID )。 

FSEditLog 有 打开 /关闭 的 方法 ， 它 们 都 是 很 简单 的 方法 ， 就 是 关闭 的 时 候 ， 要 等 待 所 有 正在 
写 日 志 的 操作 都 完成 以 后 ， 才 能 关闭 。processIOError 用 于 处 理 IO 出 错 ， 一 般 这 会 导致 Storage 
的 日 志文 件 被 关闭 ， 如 果 系 统 再 也 找 不 到 可 用 的 日 志文 件 ，NameNode 将 会 退出 。 

loadFSEdit 负责 读 取 日 志文 件 ， 并 把 日 志 应 用 到 内 存 中 的 目录 结构 中 。 它 又 调用 了 
loadEditRecords, 在 该 方法 中 完成 实际 的 读 取 ,每 一 个 操作 用 一 个 字 节 常量 来 表示 , 比如 OP ADD、 
OP_MKDIR 和 OP_CLOSE 等 操作 。 每 读 取 一 个 操作 标识 OP_*， 接 着 读 取 其 后 的 参数 ， 再 调用 
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第 12 章 基于 HDFS 的 云 文件 系统 
FSDirectory 中 对 应 的 unprotected* 方 法 。 


logEdit 的 作用 和 loadFSEdits 相反 ， 它 向 日 志文 件 中 写 入 日 志 记录 。 对 于 那些 需要 写 日 志 的 
操作 ， 这 里 暂 举 几 例 ， 下 面 的 是 它们 的 参数 。 


e@ logOpenFile (OP ADD ) : 申请 lease 


path 〈 路 径 ) /replication〈 副 本 数 ， 文 本 形式 ) /modificationTime 〈 修 改 时 间 ， 文 本 形式 ) 
/accessTime 〈 访 问 时 间 ， 文 本 形式 ) /preferredBlockSize 〈 块 大 小 ， 文 本 形式 ) /BlockInfo[] (增强 
的 数据 块 信息 ， 数 组 ) /permissionStatus (访问 控 制 信息 ) /clientName (客户 名 ) /clientMachine( 客 
户 机 器 名 ) 

® logCloseFile (OP CLOSE ) : 归还 lease 

path/replication/modificationTime/accessTime/preferredBlockSize/BlockInfo[]/permissionStatus 

e logMkDir (OP_MKDIR ) : 创建 目录 

path/modificationTime/accessTime/permissionStatus 

。 logRename (OP_RENAME ) : 改 文件 名 

src〈 原 文件 名 ) /dst〈 新 文件 名 ) Mimestamp〈 时 间 戳 ) 

elogSetReplication (OP_SET_REPLICATION ) : 更 改 副本 数 

src/replication 

e@ logSetQuota (OP_SET_QUOTA ) : 设置 空间 额度 

path/nsQuota 〈 文 件 空间 额度 ) /dsQuota〔 磁 盘 空 间 额 度 ) 

® logSetPermissions (OP_SET_PERMISSIONS ) : 设置 文件 权限 位 

src/permissionStatus 

。 logSetOwner (OP_ SET_OWNER ) : 设置 文件 组 和 主 

src/username (所 有 者 ) /groupname 〈 所 在 组 ) 

e logDelete (OP DELETE ) : 删除 文件 

src/timestamp 

e logGenerationStamp (OP_SET_GENSTAMP ) : 文件 版 本 序列 号 

genstamp 〈 序 列 号 ) 

e logTimes (OP_TIMES ) : 更 改 文件 更 新 /访问 时 间 

src/modificationTime/accessTime 

这 些 方法 调用 了 logEdit 方 法 。 通 过 上 面 的 分 析 ， 清 楚 地 展示 了 日 志文 件 里 记录 了 哪些 信息 。 

rollEditLog0 用 于 关闭 edits， 打 开 日 志 到 edits.new。purgeEditLog() 的 作用 正好 相反 ， 它 删除 
老 的 edits 文件 ， 然 后 把 edits.new 改名 为 edits。 这 也 是 Hadoop 在 做 更 新 修改 时 经 常 采用 的 策略 。 
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实战 大 数据 


(3) 文件 系统 目录 结构 展示 


通过 首页 可 以 连接 到 云 文件 系统 ， 查 看 云 文件 系统 结构 和 框架 ， 浏 览 


每 层 文件 的 区 块 信息 、 


权限 ， 创 建 用 户 和 集群 等 。 要 获得 这 些 信息 ， 需 要 得 到 请 求 的 DFSClient。DFSClient 是 一 个 真正 
实现 了 客户 端 功能 的 类 ， 它 能 够 连接 到 一 个 Hadoop 文件 系统 并 执行 基本 的 文件 任务 。 它 使 用 
ClientProtocol 来 和 NameNode 通信 ， 并 且 使 用 Socket 直接 连接 到 DataNode 来 完成 块 数据 的 读 / 
写 。Hadoop 用 户 应 该 得 到 一 个 DistributedFileSystem 实例 ， 该 实现 使 用 DFSClient 来 处 理 文件 系 
统 任 务 ， 而 不 是 直接 使 用 DFSClient。DFSClient 类 图 如 图 12.41 所 示 。 
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DFSClient 一 些 重要 的 属性 如 下 。 
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DFSClient 类 图 


第 12 章 基于 HDFS 的 云 文件 系统 


MAX_BLOCK_ACQUIRE FAILURES: 块 最 大 请 求 失败 次 数 ， 值 为 3。 

e TCP_WINDOW_SIZE: TCP 窗口 的 大 小 ， 值 为 128KB， 在 seek 操作 中 会 用 到 ， 假 如 目标 
位 置 在 当前 块 内 及 在 当前 位 置 之 后 ， 并 且 与 当前 位 置 的 距离 不 超过 
TCP_WINDOW_SIZE， 那 么 这 些 数据 很 可 能 在 TCP 缓冲 区 中 ， 只 需要 通过 读 取 操 作 来 跳 
过 这 些 数 据 。 

rpcNamenode: 通过 建立 一 个 RPC 代理 来 和 namenode 通信 。 

namenode: 在 rcpNamenode 基础 上 封装 了 一 个 Retry 代理 ， 添 加 了 一 些 RetryPolicy。 
leasechecker: 租约 管理 ， 用 于 管理 正 被 写 入 的 文件 输出 流 。 

defaultBlockSize: 块 大 小 ， 默 认 是 64MB。 

defaultReplication: 副本 数 ， 默 认 是 3。 

socketTimeout: socket 超时 时 间 ， 默 认 是 60s。 

datanodeWriteTimeout: datanode 写 超时 时 间 ， 默 认 是 480s。 

writePacketSize: 写 数据 时 ， 一 个 packet 的 大 小 ， 默 认 是 64KB。 
maxBlockAcquireFailures: 块 最 大 请 求 失败 次 数 ， 默 认 是 3， 主 要 用 于 向 datanode 请 求 块 
时 ， 失 败 了 可 以 重 试 。 


DFSClient 的 成 员 变 量 不 多 ， 而 且 大 部 分 是 系统 的 默认 配置 参数 ， 其 中 比较 重要 的 是 到 
NameNode 的 RPC 客户 端 : 


public final ClientProtocol namenode; 
final private ClientProtocol rpcNamenode; 


它们 的 差别 是 namenode 在 rpcNamenode 的 基础 上 ， 增 加 了 失败 重 试 功能 。DFSClient 中 提供 
各 种 构造 它们 的 static 函数 ，createClientDatanodeProtocolProxy 用 于 生成 到 DataNode 的 RPC 客户 
端 DFSClient 的 构造 函数 也 比较 简单 , 就 是 初始 化 成 员 变 量 close 用 于 关闭 DFSClient DFSClient 
调用 NameNode 的 如 下 方法 (需要 加 一 些 简单 的 检查 ): 

setReplication/rename/delete/exists ( 通过 getFileInfo 的 返回 值 是 否 为 空 判断 ) 
/listPaths/getFileInfo/setPermission/setOwner/getDiskStatus/totalRawCapacity/totalRawUsed/datanodeR 
eport/setSafeMode/refreshNodes/metaSave/finalizeUpgrade/mkdirs/getContentSummary/setQuota/setTi 
mes。 

在 系统 的 Web 展示 中 ， 通 过 DFSClient 返回 的 数据 ， 列 表 展 示 系 统 名 、 文 件 名 、 区 块 空间 、 
权限 和 集群 信息 等 。 


3. 集群 状态 和 节点 控制 
(1) 查看 集群 运行 状态 


想 要 了 解 集群 的 运行 状态 ， 需 要 找到 FSNamesystem。FSNamesystem 是 NameNode 实际 记录 
信息 的 地 方 ， 保 存在 FSNamesystem 中 的 数据 有 : 


e 文件 名 到 数据 块 列表 的 映射 (存放 在 FSImage 和 日 志 中 ) 。 
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日 合法 的 数据 块 列 表 ( 上 面 关系 的 逆 关系 ) 。 


数据 块 DataNode 的 映射 (只 保存 在 内 存 中 ， 根 据 DataNode 发 过 来 的 信息 动态 建立 ) 。 
DataNode 上 保存 的 数据 块 (上 面 关系 的 逆 关系 ) 。 
最 近 发 送 过 心跳 信息 的 DataNode (LRU ) 。 


节点 操作 相关 类 图 如 图 12.42 所 示 。 
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rar FDirectory 
DlocksMap: locksMap 

cor ruptReplicas; Corruptheplicashap 

datanodehap: NavigableMap<String, DatanodeDescriptor> 
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FSImage 
eit og FSEqItLoD 
echeckpointTire: long 
ronoveast orageDirs: Ustesrerageplrectory 
-checkpodntDirs; Collection<File> 
-cneckpolntEdltsolrs; CollectioncF lle> 
cuprState: Checkpointstates 


FSEditLog 


Strenms, ArrayL 1st EitLoo tt Str en 
slrage: FSInage 















INode: 它 用 来 存放 文件 及 目录 的 基本 信息 ， 即 名 称 、 父 节点 、 修 改 时 间 、 访 问 时 间 以 及 
UGI 信息 等 。 

INodeFile: 继承 自 INode， 除 INode 信息 外 ,还 有 组 成 这 个 文件 的 Blocks 列表 、 重 复 因 子 
和 Block 大 小 。 

INodeDirectory: 继承 自 INode， 此 外 还 有 一 个 INode 列表 来 组 成 文件 或 目录 树 结构 。 
Block(BlockInfo): 组 成 文件 的 物理 存储 ， 有 BlockId、size 以 及 时 间 堆 。 

BlocksMap: 负责 云 文件 系统 中 所 有 Block 信息 的 管理 ， 它 维护 了 从 Block 到 INode 以 及 
DataNode 的 映射 。 


FSDirectory: 保存 文件 树 结构 ，HDFS 整个 文件 系统 是 通过 FSDirectory 来 管理 ， 也 就 是 
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维护 整个 云 文件 系统 的 层次 目录 信息 ， 同 时 还 负责 元 数据 的 加 载 以 及 持久 化 存储 。 
@ FSImage: 保存 的 是 文件 系统 的 目录 树 。 
e@ FSEditlog: 文件 树 上 的 操作 日 志 。 
@ FSNamesystem: HDFS 文件 系统 管理 。 


(2) 节点 分 类 控制 

FSNamenode 实现 将 文件 名 对 应 到 相应 的 几 台 datanode， 首 先是 filename 一 block 的 实现 。 在 
运行 时 ， 这 个 对 应 关系 一 直 放 在 内 存 中 ， 也 会 放 在 硬盘 中 (fsimage 文件 和 相应 的 edits.log 文件 )。 
在 内 存 中 ，FSNamesystem 靠 保存 一 棵 目录 树 维持 文件 的 目录 结构 ， 用 到 如 下 几 个 数据 结构 
(如 图 12.43 所 示 )， 这 几 个 结构 都 和 Linux 的 文件 系统 类 似 ，INode 作为 基 类 保存 文件 或 者 目录 
的 名 称 ，INodeDirectory 保存 一 个 Node 列表 ， 表 示 目 录 下 的 文件 或 者 目录 ，INodeFile 保存 文件 
的 信息 ， 如 block 号 、 文 件 权限 等 。 FSNamesystem 中 的 dir 会 保存 一 个 INodeDirectory WithQuota 

类 型 的 rootDir 保存 根 节点 。 


INodeFile | Ee > 














iockinfoT | Flinteinode [ 


| 
图 12.43 ” 结 点 控制 相关 类 图 


在 硬盘 中 ， 目 录 的 信息 以 fsimage 文件 的 形式 存放 ， 并 将 读 入 fsimage 之 后 对 文件 结构 的 操 
作 放 在 edits.log 中 。 启 动 时 ，FSDirectory 调用 FSImage 的 LoadFSImage 方法 和 LoadFSEdits 方法 
将 fsimage 和 edits.log 读 入 内 存 ， 合 成 为 新 的 目录 结构 。Secondnamenode 会 定期 地 读 取 namenode 
中 的 这 两 个 文件 ， 合 成 为 一 个 新 的 fsimage 文件 ， 更 新 namenode 中 的 fsimage。FSImage 有 升级 / 
回 滚 / 提 交 动 作 ，FSImage 也 能 够 管理 多 个 Storage， 而 且 还 能 够 区 分 Storage 为 IMAGE (目录 结 
构 ) /EDITS (日 志 ) /IMAGE _ AND EDITS (前 面 两 种 的 组 合 )。 
filename 一 block 的 关系 中 ， 通 过 BlocksMap 类 型 的 blocksMap 元 素 保 存在 内 存 中 ， 不 在 硬盘 
保存 。 它 通过 datanode 的 blockReport 来 收集 构建 。 让 datanode 来 告诉 namenode 哪 一 个 datanode 
有 什么 block。BlocksMap 中 有 一 个 GSet<Block,BlockInfo> 的 元 素 ， 这 涉及 两 个 结构 ，Block 和 
BlockInfo。Namenode 通过 FSNamesystem 靠 前 面 结构 中 的 dir 和 blocksMap 这 两 个 元 素 完 成 了 两 
个 重要 功能 。 
FSNamesystem 统一 表示 内 存 元 数据 ， 在 运行 的 云 文件 系统 中 ， 把 节点 分 为 三 类 ， 即 活动 节 
点 、 死 亡 节点 和 退役 节点 。 通 过 Web 选择 ， 由 FSNameSystem 得 到 符合 要 求 的 节点 列表 ， 通 过 
JSPHelper 组 织 辅助 ， 整 合 各 节点 信息 数据 、 例 如 响应 次 数 、 分 配 区 块 个 数 ， 占 用 空间 和 剩余 空间 
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及 其 百分比 等 ， 最 后 响应 请 求 。 


(3) 元 数据 节点 存储 设计 
类 Storage 保存 了 和 存储 相关 的 信息 , 它 继承 了 StorageInfo, 应 用 于 DataNode 的 DataStorage， 
则 继承 了 Storage。Storage 可 以 包含 多 个 根 〈 参 考 配 置 项 dfs.data.dir 的 说 明 )， 这 些 根 通过 Storage 
的 内 部 类 StorageDirectory 来 表示 。 在 HDFS 中 ， 无 论 是 NameNode 节点 还 是 DataNode 节点 都 需 
要 使 用 它们 所 在 的 本 地 文件 系统 来 存储 与 自己 相关 的 数据 ， 如 NameNode 节点 存储 系统 命名 空间 
的 元 数据 ，DataNode 节点 存储 文件 的 数据 块 数据 。 总 体 类 图 如 图 12.44 所 示 。 














-orruptpreUpgrade Storagel ) 
[isConversionNeeded(in sd) : boolem 








<< 扩 D>> 
Storage StorageDirType 

esiorageDe Typel) Siorave Siorage Dir Type 
-omyefin epe : Storage SiorageDir Tipe) : boolean 















tuoFinalizelin sd) 
finalizeUpgradef) 

linkBlocks(in fom ; Fije, 和 minodLV : ing 
corruptPreUpgradeStoragcfin rootDir) 
[verilyDistributedUpgradeProgresstin nslnfo) 





图 12.44 文件 系统 存储 相关 类 图 


对 于 NameNode 节点 或 是 DataNode 节点 ， 我 们 都 可 以 为 它们 配置 多 个 本 地 文件 系统 的 存储 
路 径 ， 不 同 的 是 ，NameNode 节点 中 的 所 有 存储 路 径 存储 的 数据 基本 上 是 一 样 的 ， 而 DataNode 
节点 中 的 存储 路 径 会 分 别 存储 不 同 的 文件 数据 块 。HDFS 对 节点 存储 路 径 的 实现 被 抽象 成 了 一 个 
StorageDirectory 类 。StorageDirectory 中 最 重要 的 方法 是 analyzeStorage， 它 将 根据 系统 启动 时 的 参 
数 和 上 面 提 到 的 一 些 判断 条 件 ， 返 回 系统 现在 的 状态 。StorageDirectory 可 能 处 于 以 下 的 某 一 个 状 
态 ( 与 系统 的 工作 状态 一 定 的 对 应 ): 


e NON_EXISTENT: 指定 的 目录 不 存在 。 
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NOT FORMATTED: 指定 的 目录 存在 但 未 被 格式 化 。 

COMPLETE UPGRADE: previous.tmp 存在 ，current 存在 。 
RECOVER_UPGRADE: previous.tmp 存在 ，current 不 存在 。 
COMPLETE_FINALIZE: finalized.tmp 存在 ，current 存在 。 

COMPLETE ROLLBACK: removed.tmp 存在 ，current 存在 ，previous 不 存在 。 
RECOVER_ROLLBACK: removed.tmp 存在 ，current 不 存在 ，previous 存在 。 
COMPLETE_CHECKPOINT: lastcheckpoint.tmp 存在 ，current 存在 。 
RECOVER_CHECKPOINT: lastcheckpoint.tmp 存在 ，current 不 存在 。 
NORMAL: 普通 工作 模式 。 


StorageDirectory 处 于 某 些 状态 是 通过 发 生 对 应 状态 改变 需要 的 工作 文件 夹 和 正常 工作 的 文件 
夹 来 进行 判断 。Storage 类 就 很 简单 了 , 基本 上 都 是 对 一 系列 StorageDirectory 的 操作 ， 同 时 Storage 
提供 一 些 辅助 方法 DataStorage 是 Storage 的 子 类 专门 应 用 于 DataNode DataStorage 提供 了 format 
方法 ， 用 于 创建 DataNode 上 的 Storage， 同 时 ， 利 用 StorageDirectory、DataStorage 管理 存储 系统 
的 状态 。StorageDirectory 除 提供 保存 节点 数据 的 功能 之 外 ， 还 提供 了 对 存储 数据 的 粗 粒度 事务 操 
作 ， 如 备份 、 恢 复 、 提 交 等 。 


12.4.4 云 文件 系统 主要 功能 截图 


1. 管理 员 功 能 实现 


(1) 系统 登录 
系统 管理 员 以 账户 名 admin、 密 码 admin 登录 云 文件 系统 的 管理 员 页 面 ,如 图 12.45 和 图 12.46 
所 示 。 


欢迎 登录 
iCloudFS 系 统 





B2013 开 坟 关中 心 | 服 基 协议 | 识 和 甘 明 | 版 委 六 | 里 夺 中 心 18E 读 


12.45 系统 初始 界面 
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图 12.46 管理 员 页 面 
系统 管理 员 有 三 个 方面 的 功能 ， 一 是 用 户 管理 ， 二 是 集群 管理 ， 三 是 文件 系统 的 管理 。 


(2) 文件 系统 操作 
管理 员 可 以 查看 文件 系统 的 所 有 文件 , 并 拥有 操作 所 有 文件 的 权限 。 文 件 管理 页 面 如 图 12.47 
所 示 。 


fowed FS 由 x 搜索 a 


所 全 部 文件 世上 lt 六 件 | | 人 nH 

加 四 Ei 已 0 胃 拓 沾 
鸡 又 人 名 大 小 a 

用 音乐 
@ Wn 
此 应 用 
曾 四 ll 站 


0 ‘20139-0022 15 so.16 











图 12.47 文件 管理 页 面 


(3) 集群 管理 
本 系统 中 集群 管理 主要 包括 三 个 方面 : 集群 扩展 、 删 除 节点 以 及 修改 集群 的 副本 因子 。 


。 集群 扩展 
云 文件 系统 支持 向 集群 中 动态 增加 机 器 的 功能 。 在 管理 员 页 面 单 击 集群 管理 按钮 ， 进 入 如 图 
12.48 所 示 的 集群 管理 页 面 。 
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图 12.48 ”集群 管理 页 面 
在 集群 管理 页 面 中 ， 详 细 列 出 了 当前 集群 中 每 台数 据 节点 的 信息 ， 包 括 主机 IP、 主 机 名 、 活 
动情 况 以 及 存储 信息 等 内 容 。 在 这 个 页 面 的 右上 角 ， 单 击 “ 节 点 管理 ”进入 集群 扩展 与 减少 机 器 
的 页 面 ， 如 图 12.49 所 示 。 








12.49 集群 扩展 与 删除 节点 页 面 


在 这 个 页 面 中 ， 单 击 扫描 当前 局 域 网 的 按钮 ， 页 面 即 可 列 出 局 域 网 中 的 每 台 机 器 ， 页 面 显示 
了 集群 中 的 节点 和 非 集群 中 的 节点 ， 如 图 12.50 所 示 。 


节点 状态 














12.50 扫描 局 域 网 
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用 户 可 以 在 非 集群 的 机 器 列表 中 色 选 自己 想 要 加 入 到 集群 中 的 机 器 ， 单 击 添加 按钮 。 这 时 ， 
页 面 会 跳出 让 用 户 确认 选择 添加 的 对 话 框 ， 单 击 确定 即 可 。 这 样 就 完成 了 对 集群 的 动态 扩展 。 在 
扩展 机 器 的 过 程 中 ， 同 样 要 保证 集群 中 的 每 台 机 器 可 以 互相 识别 ， 即 在 hosts 文件 中 加 入 每 台 机 
器 的 信息 。 

日 删除 节点 


在 扫描 完 局 域 网 中 的 机 器 后 ， 页 面 同样 会 显示 出 集群 中 的 每 一 台数 据 节 点 。 用 户 可 以 在 待 删 
除 机 器 的 前 面 的 小 方 框 中 打 勾 ， 然 后 单 击 删除 按钮 ， 这 时 页 面 中 会 跳出 让 用 户 确 认 删 除 节点 的 对 
话 框 ， 单 击 确定 即 可 。 因 为 在 删除 节点 时 ， 集 群 会 将 待 删除 节点 上 的 数据 转移 到 其 他 节点 上 ， 这 
个 过 程 将 根据 待 转移 数据 量 的 多 少 需要 不 等 的 时 间 。 待 数据 转移 完成 之 后 ， 用 户 需 要 手动 将 删除 
节点 上 的 数据 删除 。 


@ 修改 副本 参数 


云 文件 系统 的 高 可 靠 性 部 分 依赖 于 每 个 文件 都 有 若干 副本 存在 ， 保 证 了 在 原 数据 因 意 外 不 可 
用 时 ， 副 本 还 可 以 使 用 。 因 此 这 个 副本 数量 也 显得 尤为 重要 ， 用 户 可 以 根据 自己 的 需要 设 定 不 同 
的 副本 数量 。 在 集群 管理 页 面 的 左上 角 ， 有 一 个 让 用 户 设置 副本 数量 的 文本 框 ， 用 户 可 以 在 这 里 
填写 相应 的 数值 ， 单 击 设置 按钮 即 可 。 云 文件 系统 默认 提供 的 副本 数量 是 3。 

(4) 用 户 管理 

在 管理 员 页 面 单 击 用 户 管理 ， 即 可 进入 用 户 管理 的 页 面 ， 如 图 12.51 所 示 。 在 该 页 面 ， 管 理 
员 可 以 修改 已 经 存在 的 用 户 的 信息 、 添 加 新 用 户 以 及 删除 当前 存在 的 用 户 。 








Yost rr 
[一天 

请 
人 用 户 各 ，test 
Lest 密码 ，123 

权限 (1 为 普通 用 户 ，2 为 管理 员 ) ，1 

真实 姓名 ，userl 

示 加 用 户 返回 首页 所 属 部 门 ，test 


联系 电话 ，13227885838 
E_mail ，3815694558qq. com 
Q 号 码 ，381569455 

多 信息 村 和 用 户 








图 12.51 用 户 管理 页 面 
2. 普通 用 户 功能 实现 


用 户 创建 后 系统 自动 为 用 户 生 成 5 个 文件 夹 ( 图 片 、 应 用 、 文 档 、 视 频 和 音乐 )， 如 图 12.52 
所 示 。 用 户 可 以 对 自己 的 文件 进行 增 、 删 、 查 ， 删 除 的 文件 将 暂时 保存 在 回收 站 ， 用 户 可 以 从 
收 闪 恢复 近期 删除 的 文件 ， 文 件 在 回收 站 中 保存 一 天 后 自动 清空 。 


回 
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esa FS 网 本 搜索 你 的 文件 搜索 ee 
各 全 部 文件 [上 x4 | [Caexf 二 | 
国力 名 已 全 名 加 载 ' 共 5 个 
国 7x 菠 口 将 名 大 小 人 下 日 其 
用 部 日 Pn 0 1-22 16:08-4 
加 日 天 ae on 2019-04 22 16.03:4 

应 用 百 a oa 2019-0¢.92 16:0:4 
es 如 并 四 i 

日 二 os src 60 











图 12.52 用户 文 件 系统 界面 


(1) 上 传 文件 
在 用 户 当前 目录 单 击 上 传 文件 ， 可 以 把 本 地 文件 上 传 到 相对 应 的 用 户 目录 。 如 图 12.53 所 示 。 






上 上传 文件 | | 名 8 文件 夫 | [选择 文件 | 未 选择 文件 革 介 





























| 4 es 个 
2013-| 
< | 二 全 文人 有 六 docx 
广 收 基 认 | Ea | microsof Office Word 2013 
因 下 载 94.5 KB 
如 吉本 | 2013]| 
2013- 
园 库 | 点 新 建 Microsoft Office Excel 工作 2013- 
国 和 | Rex 
= crosoft Office Excel 工作 雪 






> 新 建 Microsoft Word 文档 docx 




















图 12.53 ”上传 文 件 示意 图 


(2) 新 建文 件 夹 
在 用 户 当 前 目录 创建 新 的 文件 来， 用 户 自由 控制 自己 的 文件 目录 和 层次 结构 ， 如 图 12.54 所 
示 。 
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实战 大 数据 
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二 
部 











图 12.54 ”新建 文件 夹 示 意图 


(3) 文件 检索 

左 侧 的 操作 列表 中 ， 按 类 别 对 用 户 上 传 的 文件 进行 划分 ， 自 动 区 分 出 图 片 、 文 档 、 音 乐 、 视 
频 和 应 用 ， 用 户 名 可 以 通过 左 侧 操作 直接 得 到 自己 所 需 文件 而 不 用 通过 文件 系统 层次 查找 。 通 过 
右上 方 的 搜索 按钮 和 搜索 框 ， 可 以 按 用 户 输入 的 内 容 进行 模糊 查询 搜索 ， 得 到 所 有 符合 条 件 的 结 
果 并 显示 在 页 面 列表 中 ， 如 图 12.55 所 示 。 


已 宇和 in 可 后 





图 12.55 文件 检索 示意 图 
(4) 文件 删除 和 下 载 
文件 操作 中 提供 了 删除 和 下 载 功能 ， 单 击 删除 可 以 进行 文件 删除 ( 放 入 回收 站 ), 单 击 下 载 可 
以 选择 路 径 下 载 ， 如 图 12.56 所 示 。 











图 12.56 ”文件 删除 示意 图 
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(5) 文件 恢复 
回收 站 列表 显示 删除 的 文件 或 文件 夹 ， 相 对 应 的 操作 有 删除 〈 彻 底 删除 ) 和 恢复 功能 ， 如 图 
12.57 所 示 。 








Toweg FS 网 本 ,re 过 中 汪 条 


上 aif 下 未: 同和 i 和 不 占用 旋 的 宇 问 ， 文 牢 伯 丰 10 天 后 人 视 二 和 者 绿 。 | 从 再三 oh 
图 点 mn Ge 
国 颈 名 录 Dali 

用 让 下 文件 和 bo n> PE -04 如 声 古 要 

RR 
间 应 用 
面 回收 站 








图 12.57 文件 恢复 示意 图 


本 章 小 结 


本 章 着 重 讨论 了 基于 HDFS 的 云 文 件 系统 的 需求 分 析 、 总 体 设 计 、 详 细 设计 和 实现 过 程 ， 主 
要 内 容 包 括 : 
通过 调研 了 解 并 完成 了 本 系统 的 需求 分 析 。 
完成 了 本 项 目 总 体 设计 。 
完成 了 系统 各 功能 模块 的 设计 和 实现 。 
在 各 模块 完成 后 ， 进 行 了 功能 测试 工作 。 
测试 后 对 本 系统 进行 了 优化 。 


本 系统 主要 实现 了 网 盘 应 用 的 基本 功能 ， 给 出 了 一 种 基于 云 文件 系统 的 数据 存储 、 操 作 和 检 
索 的 实现 思路 ， 和 希望 对 读者 有 所 帮助 。 
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